추천시스템의 단점 cold start란?
Cold Start란 추천시스템이 새롭게 들어온 유저(고객)이나 특정 컨셉(매니악한)을 가진 유저(고객)에 대한 정보가 충분하지 않아 적절한 상품을 추천해주지 못하는 문제를 말합니다.
시중의 스트리밍, e-커머스 등 서비스에 가입 시 기록된 유저의 정보(선호장르, 성별, 나이 등)나 사전 설문조사를 통해 사용자의 정보와 특성을 파악합니다.
이렇게 수집된 유저 정보를 바탕으로 여러가지 래퍼런스 특성들과 비교하여 추천해줄 수 있습니다.
래퍼런스 특성이란 아이템 특성과 사용자 특성으로 나눌 수 있습니다.
래퍼런스 특성을 바탕으로 Content_based filtering(콘텐츠 기반 추천)과 Collborative filtering(협업필터링 기반 추천)을 이용하여 유저에게 양질의 콘텐츠를 추천할 수 있습니다.
유저 정보 | 콘텐츠 정보 |
개인 정보 : 성별, 나이, 선호장르, 혐오장르 등 평가 정보 : 좋아요, 평점, 리뷰, 댓글 등 |
콘텐츠 정보 : 장르, 시간, 등장인물, 줄거리, 콘텐츠 길이, |
Cold Start 원인
1. 새로운 아이템
신제품이나 새로운 유저가 유입될 경우, 사용하는 추천시스템의 종류에 따라 cold start 발생 문제가 달라지기도 합니다.
협업 필터링은 제품에 대한 유저의 평가나 행동에 의존하여 추천하게 됩니다. 새로운 유저의 경우 제품을 이용한 기록, 평점, 좋아요 등 행동에 대한 기록이 전혀 없기 때문에 협업 필터링 추천시스템은 cold start 문제에 매우 민감하게 반응합니다.
신규 제품이 출시되면, 정말 양질의 제품이라고 하더라도 유저들의 조회, 평점, 리뷰가 없어 인기 없는 제품으로 판단되어 유저들에게 잘 추천되지 않는 경우가 생겨나게 됩니다. 이런 경우를 추천을 받는 아이템이 극소수 이기에 Popularity bias 또는 Long tail graph라고 합니다
콘텐츠 기반 필터링의 경우 협업필터링보다 cold start 문제에 상대적으로 강건합니다. 협업필터링처럼 제품에 대한 유저의 인터렉션 정보를 요구하는 추천시스템이 아니라, 제품에 대한 특징(feature)을 이용한 기존 제품들과 유사도를 측정하여 추천하기 때문입니다.
그러나 새로운 제품이 기존 제품과 유사한 특성을 가지고 있지 않은 시장에 처음나온 제품이라면, cold start문제에 빠져 유저들에게 노출되지 않을 가능성이 높습니다.
2. 새로운 유저
신규 유저의 활동데이터가 없기 때문에, 유저의 취향/선호를 알 수 없어 cold start 문제가 발생합니다.
보통 신규유저의 신규 프로필 작성 상황에서 선호 콘텐츠나 장르를 선택하게 함으로써 신규 유저의 기호를 파악하고 추천할 수 있습니다.
신규프로필에 작성된 내용을 기반으로 "나와 비슷한 20대 남성이 선호하는 장르의 콘텐츠" 나이, 성별, 장르 3가지 공통요소를 가지고 있는 비슷한 사용자가 선호하는 콘텐츠를 추천할 수 있습니다.
3. 전체적인 데이터의 부족
스트리밍 서비스를 시작한 스타트업의 경우 해당 서비스를 이용하는 고객 수가 적어 절대적인 고객 평가 데이터와 콘텐츠의 데이터 자체가 적다면 추천시스템의 성능이 저하될 수 있습니다.
유저들의 인터렉션 정보가 없거나 아주 적기 때문에 유저들에게 맞는 개인화 추천 성능이 떨어질 수 있습니다.
cold start 해결방안
1. 전체적인 데이터 보충 - 유저 취향 및 프로필의 완성
유저가 서비스 진입 시, 더 정확한 추천을 제공할 수 있게끔 유저의 취향과 정보를 많이 담은 프로필 정보의 제공을 요구할 수 있습니다.
2. 하이브리드 필터링 이용
하이브리드 필터링이란 여러가지 필터링 기법들을 섞어서 사용하는 걸 말합니다.
콘텐츠기반 필터링과 사용자 협업필터링을 섞어 하이브리드 필터링으로 사용할 수 있습니다.
사용자가 중요하다고 생각하는 기준에 따른 사용자와 제품들의 특징에 가중치를 부여하여 추천해주는 것을 말합니다.
스트리밍 서비스에서 베네딕트 컴버배치 주연의 셜록시리즈 1을 좋아하여 셜록시리즈1을 모두 보고 좋아요를 눌렀다고 가정합니다. 셜록시리즈1을 시청한 이후 스트리밍 서비스에서 이용자에게 영화를 추천하는데요
보통은 같은 시리즈인 셜록시리즈 1,2,3,4를 추천할테지만,
hybrid filtering이라면 사용자가 좋아하는 배우인 베네딕트 컴버배치, 사용자가 좋아하는 장르인 추리물, 동일한 감독이 만든 영화, 같은 제목의 영화 등 여러 요소들을 종합하여 추천해줄 것입니다. 단순히 셜록시리즈만 추천하는 것이 아닌, 베네딕트 컴버배치 주연의 닥터 스트레인지, 이미테이션 게임, 같은 추리물의 로버트다우니 주니어의 셜록홈즈 1,2를 추천해줄 수도 있습니다.
3. differentiating Regularization Weights
유저가 선호하고나 소비한 콘텐츠에 제약조건을 두어, Regularization으로 정보 편향을 막으면서 새로운 콘텐츠를 제공해주는 방법입니다.
유저가 선호하는 콘텐츠 중 유사도가 높거나 평균평점이 좋은 콘텐츠 정보에는 가중치를 낮추고,
인기가 적은 제품이나 새롭게 유입된 콘텐츠의 가중치를 높여 Regularization효과를 주는 것을 말합니다.
'주홍의 프로젝트 > 연습 프로젝트' 카테고리의 다른 글
surprise 라이브러리 알고리즘 정리 (0) | 2022.07.04 |
---|---|
surprise 라이브러리 algorithm 정리 (0) | 2022.06.29 |
추천 시스템 정리 (0) | 2022.06.29 |
Neural Network Embedding Recommendation System (kaggle) review (0) | 2022.06.23 |
사용자기반 협업 필터링 추천시스템 - 애니메이션 추천시스템 (1) | 2022.06.22 |
댓글