NAVER AI Tech(87)
-
3. Model Based Collaborative Filtering
Latent Factor Model - user, item vector를 저차원 Latent Vector로 임베딩하는 것. - 이후 저차원에서 유사도를 구함. - 학습은 저차원으로 변환하는 weight를 학습. 1. SVD(Singular Value Decomposition) - 그 중 truncated SVD를 사용 - 행렬 분해, 축소 후 다시 복구하는 과정을 거치면서 비어있는 값을 유추 단점 1. user, item이 많아지면 성능 저하 2. 결측치가 많은 데이터에서는 작동 x **중요한 것은 user-item 행렬을 분해하여 관측되지 않은 값을 복원하는 과정에서 다시 채운다는 개념사용을 처음 도입한 모델. 2. Matrix Factorization(MF) - SVD는 3가지로 분해했다면 MF는 P..
2023.12.11 -
2. Memory Based Collaborative Filtering
추천시스템 1. 콘텐츠 기반 필터링 - 아이템간 유사도를 활용하여 현재 보고 있는 상품과 유사한 상품을 추천. - 아이템을 임베딩하기 위한 여러 방법론을 사용하여 저차원에서 유사도를 비교할 수 있도록 함. 장점 1. 다른 유저의 데이터가 필요 없음 = cold start, sparsity 문제 없음 2. 독특한 취향을 가진 유저에게도 추천 가능 3. 새로운 아이템이나 유명하지 않은 아이템도 추천 가능 단점 1. 아이템에 적합한 feature를 뽑기 어려움 2. 유사한 아이템만 반복적으로 추천되어 다양성이 떨어짐 3. 다른 유저의 데이터나 사용자의 평가를 반영하기 어려움 추천시스템 2. Collaborative Filtering - 나와 비슷한 성향의 사람들이 좋아하는 아이템을 나한테도 추천. - 즉 많은..
2023.12.11 -
1. 프로젝트 시작 : 데이터분할과 평가지표
offline test / online test로 나눌 수 있다. Offline test 데이터 분할 기법 1. Leave One Last - 사용자당 마지막 구매를 test set. 마지막에서 2번째를 valid set으로 분할 - 학습 시 많은 데이터를 사용할 수 있다는 장점. but 마지막 구매만을 평가하므로 전체적인 성능을 반영한다고 보기 어려움 단점 존재 2. Temporal User / Global Split - 특정 시점을 기준으로 test set을 분할 - data leakage가 없지만 학습 시 사용할 수 있는 상호작용이 적은 문제가 존재. 3. Random Split - 사용자 별로 interaction을 시간 순서에 상관없이 random하게 분할. - 쉽고 학습 데이터가 많다는 장점이..
2023.12.11 -
18. Multi-Armed Badit with Recommend System
Multi-Armed Bandit k개의 슬롯머신을 N번 플레이한다고 가정했을 때, 각 슬롯머신에서 얻을 수 있는 reward 확률이 모두 다름 - 이때 수익을 최대화하기 위해서는 arm을 어떤 순서대로 혹은 어떤 정책(policy)를 수립하여 당겨야 하는가? Exploration(탐색) : 더 많은 정보를 얻기 위하여 새로운 arm을 선택하는 행위 Exploitation(활용) : 기존 경험 혹은 관측 값을 토대로 가장 좋은 arm을 선택하는 행위 - Exploration & Exploitation trade-off 이때 모든 action에 대한 reward의 분포도를 알 수 없으므로 추정을 통해 진행. 1. Greedy Algorithm(=simple average method) - timestep별..
2023.12.05 -
17. Transformer with Recommend System
CTR 예측에 딥러닝을 사용하는 이유 - high sparse and super high-dimensional features. - highly non-linear association between the feature **Wide&Deep Learning for Recommender Systems : Wide(선형 모델)과 Deep(비선형 모델)을 결합한 논문. 1. Meorization : 함께 빈번히 등장하는 아이템 또는 특성 관계를 과거 데이터로부터 학습(암기). - 주로 Logisitc Regression과 같은 선형 모델을 사용 2. Generalization : 드물게 발생하거나 전혀 발생한 적 없는 아이템 또는 특성 조합을 기존 관계로부터 발견(일반화) - FM, DNN과 같은 임베딩 기..
2023.12.05 -
16. Context-aware Recommendation
행렬 분해(Matrix Factorization)를 사용하여 협업 필터링(Collaborative Filtering)을 구축할 경우 - 유저-아이템 간 상호작용을 2차원 행렬로 표현. - 이때 유저의 데모그래픽이나 아이템의 카테고리와 같은 feature는 사용하지 못했음. Context : 맥락정보란 유저의 데모그래픽, 아이템의 카테고리와 같은 feature를 의미함. 추천 시스템의 목적 CTR(Click-Through Rate) prediction : 유저가 주어진 아이템을 클릭할 확률을 예측하는 문제. - y값은 클릭여부. 즉 이진 분류에 해당 - 주로 광고 추천에서 사용됨. 추천 시스템 사용 데이터 - Dense Feature : 유저의 데모그래픽, 아이템의 카테고리와 같은 비교적 작은 공간에 밀접..
2023.12.04