본문 바로가기
수학

취향저격 추천 알고리즘과 조건부 확률

by 더 용감한 형제 2022. 7. 20.
반응형

최근 거의 대부분의 기업들이 성장과 매출의 증대를 위하여 추천 알고리즘을 이용하고 있습니다. 흔히 접할 수 있는 유튜브나 넷플릭스 혹은 네이버의 쇼핑 광고를 보면  좋아할 만한 것들을 알아서 맞춤으로 알아서 추천해 주고 소비를 유도합니다. 물론 취향에 맞는 광고여서 편하다는 생각이 들기도 하지만 어떻게 내 성향을 파악하고 내게 맞는 서비스를 추천하는지 궁금하기도 합니다.

 

넷플릭스가 당신을 사로잡는 법

넷플릭스는 아주 빠르고 크게 성장한 기업입니다. 그런데 넷플릭스가 처음에 우편을 통한 기계학습부터 시작했다는 사실을 아는 사람은 거의 없습니다. 2010년까지만 해도 넷플릭스의 핵심 사업은 연체료를 받지 않는 DVD를 빨간 봉투에 담아 보내는 일이었습니다. 가입자가 대여한 DVD를 반납할 때 영화에 1점부터 5점까지 점수를 매길 수 있는 평가표도 함께 동봉하였습니다. 그런 데이터가 축적되면서 넷플릭스의 알고리즘은 패턴을 찾아가기 시작하였습니다. 그리고 시간이 지날수록 가입자들은 더 나은 영화 추천 정보를 제공받았습니다.

넷플릭스는 추천 시스템의 성능 향상에 집중했습니다. 2007년에는 전 세계 수학자들의 환호를 받으며 100만 달러의 상금을 걸고 기계학습 경진대회도 개최하였습니다. 본인들의 평가 데이터 일부를 공개 서버에 업로드하고서, 모든 참가자에게 넷플릭스의 추천 시스템 성능을 최소 10% 이상 향상할 것을 요구하였고 가장 먼저 그 목표를 달성한 팀에게 상금을 전액 주기로 하였습니다.

이후 여러 달 동안 수천 팀이 경진대회에 응모하였고 2009년 벨코어 스프래그 매틱 카오스라는 팀이 상금을 거머쥐게 되었습니다. 

이런 경진대회를 통해 드러나듯 넷플릭스는 가입자가 영상컨텐츠를 어떻게 평가할지 알고리즘을 통해 예측하는 소프트웨어에 일찍부터 치중하였고 다음 세 단어가 넷플릭스의 미래를 바꾸어 버렸습니다. 그 단어는 바로

넷플릭스는 추천알고리즘으로 유명하다.
넷플릭스

반응형

하우스 오브 카드

하우스 오브 카드의 제작진은 수많은 회사를 찾아다니며 작품개요를 설명하고 제작사로 참여해 줄 것을 요청하였지만 결국 넷플릭스에서 제작사로 참여하여 엄청난 흥행에 성공하게 됩니다. 그렇다면 넷플릭스는 어떤 이유로 개인별 추천 시스템을 넘어서 개인 맞춤형 텔레비전 시리즈 제작까지 참여하게 된 것일까요?

쉽게 설명하자면 넷플릭스는 가입자에 대한 데이터를 가지고 있었고 보다 중요한 건 데이터와 관련된 적절한 질문에 답을 내릴 수 있는 확률에 관한 깊은 지식과 이런 답을 중심으로 사업 전체를 재구성할 수 있는 용기가 있었습니다.

 

조건부 확률

오늘날 AI를 이용한 개인화 작업을 넷플릭스보다 잘 하는 기업은 많지 않습니다. 그리고 이제 넷플릭스가 개척한 개인화 접근법이 온라인 비즈니스를 지배하고 있다는 사실에 이견을 가진 사람은 거의 없을 것입니다. 그렇다면 어떻게 이런 개인화 작업을 하는 것일까요? 두말할 것도 없이 이런 개인 추천 알고리즘에는 수많은 수학이 정교하게 들어가 있습니다. 그것은 바로 조건부 확률입니다. 개인화는 조건부 확률을 의미한다고 생각하시면 됩니다. 

 

수학에서 조건부확률이란 어떤 사건이 이미 일어났을 때 다른 사건이 일어날 확률을 의미합니다. P( A | B)는 B라는 사건이 일어났을 때 A라는 사건이 일어날 확률로서 사건 A와 B가 동시에 일어날 확률을 사건 B가 일어날 확률로 나누면 됩니다. 구체적으로 구하는 방법보다 인공지능이 조건부 확률을 어떻게 활용하는지 살펴보는데 의미를 두도록 하겠습니다.

 

● 영화 셜록홈즈에 높은 점수를 줬을 때 이미테이션 게임이나 팅커 테일러 솔저 스파이를 좋아할 조건부 확률은 얼마인가?
● 애완경 유기농 사료를 구입했을 때 GPS가 장착된 개 목걸이를 살 조건부 확률은 얼마인가?
● 인스타그램에서 호날두를 팔로우하고 있을 때, 리오넬 메시나 손흥민을 추천받으면 응답할 확률은 얼마인가?

개인화는 조건부확률에 따라 달라집니다. 그리고 모든 조건부 확률은 각자가 조건이 되는 사건에서 모은 대량의 데이터 집합으로부터 계산이 됩니다. 다음 포스팅에서는 구체적으로 어떤 방식으로 계산이 되는지 알아보겠습니다.

반응형

댓글