전체 글(327)
-
6. Neighborhood-Based Collaborative Filtering
협업 필터링(Collaborative Filtering CF) - 많은 유저들로부터 얻은 기호정보를 이용해 유저의 관심사를 자동으로 예측하는 방법 - 최종 목적 : 유저 u가 아이템 i에 부여할 평점을 예측하는 것. 사용 방법 1. 주어진 데이터를 활용하여 유저-아이템 행렬을 생성한다. 2. 이때 모든 유저가 모든 아이템에 대해 평점을 측정하지 않았으므로 많은 빈칸이 존재한다. 3. 목적은 해당 빈칸을 맞추는 것. 4. 유저간(u,v)의 유사도를 측정 / 아이템간(i,j) 유사도를 측정 5. 유사한 유저(u)가 아이템 i에 부여한 평점과, 유저(u,v)간의 유사도를 바탕으로 유저 v가 아이템 i에 부여할 평점 예측 or 5. 유사한 아이템(i)가 유저 u로부터 받은 평점과, 아이템(i,j)간의 유사도를 ..
2023.11.29 -
5. TF-IDF를 활용한 컨텐츠 기반 추천
컨텐츠 기반 추천 : 유저가 선호하는 아이템을 기반으로 해당 아이템과 유사한 아이템을 추천 - 추천 아이템에 대한 설명(explanation)이 가능하다. - 그러나 아이템 heterogeneous 특성 탓에 아이템끼리 나타내는 feature 또한 다를 수 있다. item profile - 추천 대상이 되는 아이템을 feature로 구성시켜야 한다.(=vectorization) - TF-IDF for text feature(Term Frequency - Inverse Document Frequency) TF-IDF는 특정 아이템을 어떤 document에서 볼 것인가가 정해진다면 vectorization이 가능한 방법 user profile - 유저가 정해졌으니, 과거 선호했던 item들을 TF-IDF를 ..
2023.11.29 -
4. 연관 규칙 분석
연관 규칙 분석 : 하나의 연속된 거래들 사이의 규칙을 발견하기 위한 분석 - 흔히 장바구니 분석이라고도 함. - 규칙 : 한 사건이 일어난 후에 다른 사건이 일어난 경우 - 연관 규칙 : 규칙의 빈도수가 threshold를 넘었을 때 '함께' 발생한다는 또 다른 사건의 규칙을 의미 - antecedent, consequent로 이루어지며, 두 집합은 서로소(disjoint)이다. - supprot : itemset이 전체 transaction data에서 등장하는 비율 연관 규칙 척도 사용 방법 - item이 많아질 수록 itemset을 구성할 수 있는 경우의 수는 기하급수적으로 많아진다. - 따라서 유의미한 rule을 판별해내는 것이 중요하다. 1. minimum support, minimum con..
2023.11.29 -
3. 인기도 기반 추천
인기있다의 정의는 ? - 조회수, 평균 평점, 리뷰 개수, 좋아요/싫어요 수 를 척도로 평가. 메타데이터(추천 아이템의 종류)에 따라 달리지는 인기도 score! - 뉴스의 경우 조회수가 가장 높고 최신인 아이템을 추천. 최근 핫한 이슈가 중요하기 때문 - 맛집의 경우 평균 평점이 가장 높은 아이템을 추천. 퀄리티가 중요하기 때문
2023.11.29 -
2. 추천시스템 평가 지표
추천시스템 평가 지표 - 비즈니스 관점 : 매출이 증가하였는가? 혹은 CTR(노출 대비 클릭)이 상승했는가? - 품질 관점 : 연관성, 다양성, 새로움, 참신함 등에 대해 평가를 진행. Precision / Recall - Precision : 추천한 아이템 중에 실제 유저가 관심있는 아이템 비율 - Recall : 유저가 관심있는 아이템 중에 우리가 추천한 아이템 비율 ex) 유저가 관심있는 아이템 3개, 추천시스템이 추천한 아이템 5개 중 2개가 유저가 관심있는 아이템에 포함될 경우 Precision : 2/5, Recall : 2/3 MAP@K - 모든 유저에 대해서 Precision@1부터 Precision@K 까지 평균. NDCG - cumulative gain : 상위 K개 아이템에 대하여 관..
2023.11.29 -
1. 추천시스템 개요
추천시스템이란? - 특정 유저에게 적합한 아이템을 추천한다 or 특정 아이템에게 적합한 유저를 추천한다. - 이때 유저-아이템 간 상호 작용을 평가할 score가 정의되어야 한다. - 따라서 top K(랭킹)을 예측하거나, 정확한 선호도를 예측하는 문제로 나눌 수 있다. 추천시스템에서 사용하는 데이터 1. 유저 데이터(식별자, 데모그래픽 정보, 행동 정보) - 식별자 - 데모그래픽 정보(성별, 연령, 거주지역, 관심사) - 유저 행동 정보(페이지 방문 기록, 아이템 평가, 피드백 등) 2. 아이템 데이터 - 아이템의 종류에 따라 달라질 수 있음(메타 데이터 속성에 따라 달라진다고 함) - 식별자 - 아이템 고유 정보(영화일 경우 출연 배우, 감독, 줄거리 등등, 음악일 경우 아티스트, 작곡가, 장르 등등..
2023.11.29