7. K-nearest Neighbors Collaborative Filtering

2023. 11. 29. 15:05NAVER AI Tech/Recommen System

NBCF의 한계

- 모든 유저간의 유사도를 계산하기엔 compute cost가 너무 비싸다.

- 또한 오히려 모든 유저와의 계산을 진행할 경우 성능이 떨어지기도 한다.

 

KNN CF

- 맞추고자 하는 유저 j에 대해 가장 유사한 K명의 유저의 데이터만 활용.

- 일반적으로 K는 25~50. 하이퍼파라미터.

- 궁금한점. 결국 모든 유저와의 유사도를 구하고, 그 중 K개만 계산하는건데.... 모든 유저와의 유사도를 구하는 과정은 동일하지 않나?

 

 

KNN CF에서 주로 사용하는 유사도 평가 지표 4가지

 

1. MSD(Mean Squared Difference)

 

 

2. cosine

 

 

3. Pearson Correlation

 

4. Jaccard

 

 

어느것이 가장 좋다고 정해진 것은 없다. 4가지 중에 가장 좋은 성능을 보이는 것으로 선택하여 풀어야함.

 

 

결국 문제는 빈칸채우기

- 유저 u가 아이템 i에 부여할 평점 예측하기.

 

평점 주는 방식은 Absolute Rating / Relative Rating 방식이 존재.

 

Absolute Rating

- average / weighted average 방식이 존재.

- but 유저마다 평점에 후한 유저가 있고, 짠 유저가 있는 만큼 평점을 주는 기준이 제각기 다르다. 

 

Relative Rating

- 특정 유저의 분포를 고려하여 편차를 사용. 상대적인 만족도를 계산

 

 

**결국 결측치 핸들링이 아닐까 싶은 개인적인 생각..

'NAVER AI Tech > Recommen System' 카테고리의 다른 글

9. Embedding  (1) 2023.11.30
8. Model-Based Collaborative Filtering  (0) 2023.11.29
6. Neighborhood-Based Collaborative Filtering  (0) 2023.11.29
5. TF-IDF를 활용한 컨텐츠 기반 추천  (0) 2023.11.29
4. 연관 규칙 분석  (0) 2023.11.29