추천 알고리즘 YouTube와 넷플릭스의

 

오늘도 모르는 유튜브 알고리즘이 나를 이끌어줬다2020년 2월 26일 발표된 과학기술정보통신부 보고서 ‘2019 인터넷 이용 실태조사 결과’에 따르면 국민의 81.2%가 인터넷을 통해 서비스를 이용하고, 73.7%는 매일 서비스를 이용하고 있는 것으로 나타났습니다. 사용량이 증가하면서 온라인 OTT 서비스 경쟁은 점차 과열되는 양상을 보이는데, 국내 플랫폼 사용량 1위인 유튜브와 ‘구독자 수 꾸준한 증가’, ‘ 플랫폼 만족도 1위’라는 제목의 넷플릭스(Netflix)가 주목을 받을 것입니다. 유튜브와 넷플릭스가 각광받는 이유는 뭘까요?

유튜브 최고 상품 담당자(CPO)인 닐 모한(Neal Mohan)은 2019년 3월 뉴욕타임스와의 인터뷰에서 “유튜브 이용자 시청 시간의 70%가 알고리즘에 의한 결과이며 알고리즘 도입으로 비디오 시청 시간이 총 20배 이상 증가했다”고 말했습니다. 넷플릭스도 매출의 75%가 시스템에 의해서 발생한다고 자기 평가에서 발표했습니다. 즉, 이 두 동영상 플랫폼은 기본적으로 볼 만한 콘텐츠가 많고 개인에게 맞는 콘텐츠를 추천하는 기능까지 갖추고 있어 온라인 동영상 플랫폼 대항마들이 속속 등장하고 있는 시점에서도 왕좌를 지키고 있다고 볼 수 있습니다.

YouTube의 설정을 「자동 재생」으로 하고, 희미하게 YouTube의 선택에 맡긴 영상을 보면, 「오늘도 모르는 YouTube 알고리즘이 나를 이 영상으로서 데리고 왔다」라고 하는 코멘트가 높은 공감을 얻어 상위에 기록되고 있는 것을 간단하게 찾아낼 수 있습니다. 넷플릭스의 구독자라면, 신규 등록 시기마다 「OO님의 취향에 맞는 영화 등록 알림」이라는 메일을 수신한 경험이 있을 것입니다. 가끔은 저보다 취향을 더 잘 파악하고 있다고 느낄 수 있는 온라인 동영상 플랫폼의 추천 알고리즘 기술에 대해서 알아보도록 하겠습니다.

(출처: Getty Images Bank) 권장 알고리즘이란?알고리즘은 어떠한 문제를 해결하기 위해 정한 순서 또는 규칙의 모음이라고 생각할 수 있습니다. 포털 검색 결과를 사용자가 원하는 방향으로 제공하거나 저작권 침해 콘텐츠 또는 유해한 콘텐츠를 선별하는 등 다양한 방면에서 알고리즘이 활용되고 있습니다. 그 중 우리의 일상에서 가장 익숙한 것은 추천할 만한 알고리즘입니다. 추천 알고리즘은 방대한 데이터 중에서 일정한 규칙에 따라 사용자가 좋아할 만한 콘텐츠를 추천하여 사용자의 만족도를 높여줍니다. 또한 기업에게는 사용자의 플랫폼 체재 시간 및 콘텐츠 운영의 효율성을 높이고 구독자 이탈을 막는데 효과적인 전략입니다.추천 알고리즘의 두 가지 필터링 기법-콘텐츠 기반의 필터링, 콜라보레이션 필터링-

알고리즘이 추천하는 컨텐츠의 선택 방법은, 크게 「컨텐츠 기반 필터링」과「콜라보레이션 필터링」으로 나뉩니다.

▲ 콘텐츠 기반의 필터링과 콜라보레이션 필터링(출처: Software Carpentry) 콘텐츠 기반의 필터링(content-based filtering) 콘텐츠 기반의 필터링은 콘텐츠 정보를 기반으로 한 다른 콘텐츠를 추천하는 방식입니다. 영화 콘텐츠의 경우 영화의 줄거리, 등장 배우와 장르 등을 데이터화하여 상품이라면 상품의 상세 정보를 분석하여 추천하는 방법입니다. 콘텐츠 기반 필터링의 장점은 콘텐츠 자체를 분석하는 것이므로 초기 사용자의 행동 데이터만 적어도 권장할 수 있습니다.

하지만콘텐츠기반필터링에도한계가있습니다. 콘텐츠의 정보를 모두 포함하기 어렵다는 점입니다. 예를 들어, 케이팝 그룹 EXO의 중 수호의 팬은 수호만 등장하는 추천 콘텐츠를 원하지만 겹치는 콘텐츠 정보가 많기 때문에 원치 않는 그룹 전체나 그룹 내 다른 멤버들의 활동상이 담긴 콘텐츠를 추천 받습니다. 이렇게 알고리즘의 입장에서 이용자의 성향을 상세하게 파악하기 어렵다는 문제가 발생합니다.콜라보레이션 필터링(collaborative filtering) 콜라보레이션 필터링은 많은 사용자로부터 얻은 기호정보를 통해 사용자의 관심사를 자동으로 예측할 수 있는 방법입니다. 같은 행동을 한 사람을 하나의 프로파일링 그룹으로 만들어 그룹 내 사람이 공통으로 본 콘텐츠를 추천하는 방법입니다. 예를 들어 쇼핑몰에서 상품을 구매하면 그 상품을 구매한 사람들이 구매한 다른 상품을 추천 상품으로 보여주거나 SNS에서 나와 친구를 맺고 있는 사람들의 친구를 자동으로 추천해주는 개념입니다.

그러나, 콜라보레이션 필터링에 대해서는, (1) 기존의 데이터가 없는 신규 유저에 대해서는 추천이 어려운 것, (2) 유저가 많을수록 추천에 계산 시간이 길게 걸리는 것, (3) 다수의 유저가 관심을 나타내는 소수의 컨텐츠가 추천 컨텐츠로 보여지는 비율이 높아져 소외되는 컨텐츠가 생기는 것등의 한계가 있습니다.추천 알고리즘 구성 -Youtube와 Netflix

유튜브와 넷플릭스의 추천 알고리즘이 어떤 방법으로 우리를 관찰하고 있는지 알아보겠습니다.

Netflix는 콜라보레이션 필터링과 콘텐츠 기반 필터링의 단점을 보완하고 통합된 앙상블 체계(ensemble System)를 사용함과 동시에 진일보하는 등 추천 알고리즘에 주력하고 있습니다. 우선, Netflix는 같은 영상을 본 사람이 같은 패턴의 행동을 보였을 경우는, 같은 프로파일링 그룹으로 하는 콜라보레이션 필터링을 사용합니다.

예를 들어, 같은 영화를 시청하고 있는 두 사람이 영상을 일반 배속이 아닌, 느린 배속 혹은 배속을 적용하는 행위를 보여주거나, 드라마를 같은 이야기까지 보고 종료하는 행위를 할 경우, 그들은 같은 시청 패턴을 가진 하나의 그룹으로 통합되게 됩니다. 이와 같이 그룹을 나누는 몇 가지 항목에는 컨텐츠 장르, 오프닝 스킵의 유무, 재시청 비율, 사용기기, 데이터 환경, 평가의 유무, 중간정지의 유무, 시청 요일과 시간, 재생 중의 정지, 되돌리는 지점 등 넷플릭스는 매우 다양한 기준으로 세부적인 그룹을 만들어 내는 것으로 알려져 있습니다. 콜라보레이션 필터링에서 한 걸음 더 나아가 콘텐츠 기반의 필터링 방식을 더합니다.

본 지점에서 Netflix는 AI 능력뿐만 아니라 대규모 인력을 활용하여 보유한 콘텐츠를 태그화하는 작업을 하고 있습니다. 영상의 분위기를 묘사하는 형용사, 지역적 요소, 시대적 배경, 이야기의 출처, 등장인물의 특징 등 다양한 태그가 존재합니다.”즉 영상 자체를 단순히 ‘코미디 장르’가 아니라 ’90년대 블랙 코미디’, ‘여주인공 코미디’, ‘여주인공 블랙 코미디’ 등의 콘텐츠에 구체적인 속성을 부여하는 것입니다”

그러면 유튜브는 어떻게 추천 알고리즘을 구성합니까? 유튜브는 알고리즘을 외부에 공개하지 않았습니다. 하지만 유튜브는 매일 유튜브에서 추천하는 영상 수만 약 2억 건 이상이며 이는 사람의 인지능력을 벗어나는 범위에서 컴퓨터 알고리즘이 해결해 준다고 밝히고 있다. 한가지 재미있는 사실은 유튜브는 영상제작자들에게 실질적인 수익이 돌아가는 구조이기 때문에 제작자들은 유튜브 추천 알고리즘이 영상의 , 태그, 설명 등 콘텐츠의 다양한 특징을 반영하는 것임을 파악하고 알고리즘의 취향에 맞는 영상을 제작하기 위해 노력하고 있다는 점입니다.

(출처: AIGA Eye on Design, 일러스트레이터: Avalonhu) 완벽하지는 않지만 내가 원하는, 내 취향에 맞는 영상을 골라주는 추천 알고리즘에 대해 알아봤습니다. 이 추천 알고리즘이 더 발전한다면 누군가 우리 마음속을 보고 영상을 골라줄 거라고 착각하게 만드는 그런 추천 알고리즘이 금방 나타날 수도 있을 것 같습니다.