NAVER AI Tech(87)
-
9. Embedding
Embedding : 주어진 데이터를 낮은 차원의 벡터로 만들어서 표현하는 방법 - Latent와 동일하다고 생각해도 된다. - 보통 one-hot encoding을 통해 단어를 벡터화 한 후(이것을 sparse representation이라고 한다) embedding을 통해 조금 더 압축된 벡터로 표현한다(이것을 dense representation이라고 한다) - 비슷한 의미를 가진 단어라면 embedding vector 또한 거리가 가깝다고 볼 수 있다. - embedding을 표현하기 위해서는 학습 모델이 필요함! 잘 나타내기 위한 방법론을 고민. Word2Vec : word to vector(embedding) 표현 모델. - 학습 방법으로는 CBoW, Skip-Gram이 있다. CBoW(Con..
2023.11.30 -
8. Model-Based Collaborative Filtering
NBCF 한계 - sparsity : cold start - scalability : item이 늘어날 수록 계산비용은 기하급수적 증가 Model-Based Collaborative Filtering(MBCF) - 데이터에 숨겨진 유저-아이템 관계의 잠재적 특성,패턴을 찾는다. - 유저, 아이템 벡터를 모두 학습을 통해 변하는 파라미터로 인식. - 현업에서는 Matrix Factorization 기법이 가장 많이 사용됨. 장점 : 1. 이미 학습된 모델을 바탕으로 서빙 수행 = 빠르다 2. sparsity, scalability 문제 개선. (sparsity ratio가 99.5% 이상일 때도 좋은 성능을 보임. 또한 item 개수가 늘어나도 좋은 성능을 보임) 3. overfitting 방지 4. Li..
2023.11.29 -
7. K-nearest Neighbors Collaborative Filtering
NBCF의 한계 - 모든 유저간의 유사도를 계산하기엔 compute cost가 너무 비싸다. - 또한 오히려 모든 유저와의 계산을 진행할 경우 성능이 떨어지기도 한다. KNN CF - 맞추고자 하는 유저 j에 대해 가장 유사한 K명의 유저의 데이터만 활용. - 일반적으로 K는 25~50. 하이퍼파라미터. - 궁금한점. 결국 모든 유저와의 유사도를 구하고, 그 중 K개만 계산하는건데.... 모든 유저와의 유사도를 구하는 과정은 동일하지 않나? KNN CF에서 주로 사용하는 유사도 평가 지표 4가지 어느것이 가장 좋다고 정해진 것은 없다. 4가지 중에 가장 좋은 성능을 보이는 것으로 선택하여 풀어야함. 결국 문제는 빈칸채우기 - 유저 u가 아이템 i에 부여할 평점 예측하기. 평점 주는 방식은 Absolute..
2023.11.29 -
6. Neighborhood-Based Collaborative Filtering
협업 필터링(Collaborative Filtering CF) - 많은 유저들로부터 얻은 기호정보를 이용해 유저의 관심사를 자동으로 예측하는 방법 - 최종 목적 : 유저 u가 아이템 i에 부여할 평점을 예측하는 것. 사용 방법 1. 주어진 데이터를 활용하여 유저-아이템 행렬을 생성한다. 2. 이때 모든 유저가 모든 아이템에 대해 평점을 측정하지 않았으므로 많은 빈칸이 존재한다. 3. 목적은 해당 빈칸을 맞추는 것. 4. 유저간(u,v)의 유사도를 측정 / 아이템간(i,j) 유사도를 측정 5. 유사한 유저(u)가 아이템 i에 부여한 평점과, 유저(u,v)간의 유사도를 바탕으로 유저 v가 아이템 i에 부여할 평점 예측 or 5. 유사한 아이템(i)가 유저 u로부터 받은 평점과, 아이템(i,j)간의 유사도를 ..
2023.11.29 -
5. TF-IDF를 활용한 컨텐츠 기반 추천
컨텐츠 기반 추천 : 유저가 선호하는 아이템을 기반으로 해당 아이템과 유사한 아이템을 추천 - 추천 아이템에 대한 설명(explanation)이 가능하다. - 그러나 아이템 heterogeneous 특성 탓에 아이템끼리 나타내는 feature 또한 다를 수 있다. item profile - 추천 대상이 되는 아이템을 feature로 구성시켜야 한다.(=vectorization) - TF-IDF for text feature(Term Frequency - Inverse Document Frequency) TF-IDF는 특정 아이템을 어떤 document에서 볼 것인가가 정해진다면 vectorization이 가능한 방법 user profile - 유저가 정해졌으니, 과거 선호했던 item들을 TF-IDF를 ..
2023.11.29 -
4. 연관 규칙 분석
연관 규칙 분석 : 하나의 연속된 거래들 사이의 규칙을 발견하기 위한 분석 - 흔히 장바구니 분석이라고도 함. - 규칙 : 한 사건이 일어난 후에 다른 사건이 일어난 경우 - 연관 규칙 : 규칙의 빈도수가 threshold를 넘었을 때 '함께' 발생한다는 또 다른 사건의 규칙을 의미 - antecedent, consequent로 이루어지며, 두 집합은 서로소(disjoint)이다. - supprot : itemset이 전체 transaction data에서 등장하는 비율 연관 규칙 척도 사용 방법 - item이 많아질 수록 itemset을 구성할 수 있는 경우의 수는 기하급수적으로 많아진다. - 따라서 유의미한 rule을 판별해내는 것이 중요하다. 1. minimum support, minimum con..
2023.11.29