활용한 영화 흥행 예측 연구. 한국데이터정보과학회지, 26(6), 1259-1269. 이상훈, 조장식, 강창완, 최승배(2015) 텍스트마이닝을

 1. 서론 빅데이터 분석이 다양한 분야에서 관심을 가지고 연구되고 있는 비정형화 형태의 빅데이터는 정형화하여 분석을 실시하는데 대표적으로는 데이터마이닝이 있다.데이터 마이닝에는 텍스트 마이닝, 웹 데이터 마이닝, 공간 데이터 마이닝 등 *데이터 마이닝을 활용한 기존의 연구 => 이러한 다양한 분야에서 얻을 수 있는 방대한 비정형 데이터는 다방면으로 적용이 가능함을 알 수 있다.”Kim과 Oh(2009) 온라인 고객의 리뷰를 효과적으로 사용하기 위하여 시장세분화 개념을 도입하여 텍스트를 범주화하여 연구를 수행 Kang 등(2015) 사회네트워크 분석과 테스트마이닝 기법을 이용하여 한 구단의 배구경기력을 분석 Bae 등(2013) 텍스트마이닝을 이용한 기후변화 관련 식품분야 논문 초록에서 용어 출현빈도 분석 An과 Cho(2010) 뉴스내용지

2. 분석 수법1) 텍스트 마이닝”문서상의 있는 패턴과 관계를 찾아내 이것을 추출함으로써 적절한 알고리즘을 이용하여, 비정형화된 데이터를 정형화 데이터로 변환시켜 분석하는 일련의 과정이다.”비정형화된 데이터로 텍스트간의 암묵적인 정보를 추출할 수 있는 비정형화된 텍스트 데이터를 구분하여 이들의 연관성을 찾고, 데이터를 클러스터링, 구조적 데이터와의 결합을 통한 모델 구축 등을 한다(SAS Institute INC, 2010).

2) 텍스트 마이닝 과정 (1) 데이터 수집 과정 : 비정형 대규모 텍스트 데이터를 수집하는 단계.(2) 용어 추출 과정 : 문장의 단어, 규칙 등의 연관성을 고려하는 연관성 분석에 의해 단어를 추출하여 관심 있는 후보의 단어를 만들어 내는 과정 추출 방법은 TF(term frequency), DF(document frequency) 등 (3) 정보 추출 과정 : 문서 내에서 필요한 상세정보 추출(4)

3) 오피니언 마이닝 소셜미디어 또는 웹사이트에 나타난 의견을 분석하여 유용한 정보로 만드는 기술주로서 다양한 소셜미디어 콘텐츠부터 상품 및 서비스의 선호도, 사회적 사건 및 정치 이슈 등에 대한 대중의 의견 분석에 적용 * 오피니언 마이닝 기존 연구-Yune 등 (2010) 오피니언마이닝기술을 이용한 효율적인 상품평가 검색기법

3.연구방법1)분석데이터

포털 D사에 제공된 2013~2014까지 상영된 영화 47편(34편 흥행, 13평 비흥행)의 평점 , 댓글 55, 028편-영화진흥위원회에서 제공하는 47편의 영화에 대한 스크린 수-1차 가공: 원 데이터인 47편의 영화에 대한 텍스트 문서에서 모든 영화에서 공통으로 나오는 용어 중 빈도수가 100개 이상인 것. 구성.

2) 분석내용 및 방법 – 영화의 흥행여부 예측모형 구축영화를 행으로 단어를 변수로 상정하여 나열하는 행렬을 특이치 분해를 이용하여 얻은 고유벡터를 설명변수, 영화의 흥행여부를 종속변수 – 로지스틱회귀분석 진행 – 변수선택법에 단계별 변수선택법 사용 – SAS Enterprise Miner 13.1의 Text

3) 분석과정 (1) 가공 및 정제 ‘재미있다’, ‘재미있다’는 단어를 하나의 동일어로 가공하는 작업 등

(2) 용어 추출 과정의 텍스트 필터 노드에서 분석할 문서와 단어의 총 개수를 줄이는 작업을 수행.상위 단어의 수를 20,000개로 제한한 43개의 영화에서 공통적으로 나오면 빈도가 100개 이상인 용어 중 상위 10개

(3) 정보추출과정 텍스트 토픽뷰어 분석 : 텍스트 중에서 공통된 화제를 추출하여 주제에 따라 관련 잠바를 찾을 수 있다.’단일어 토픽 수’ (액션이라는 단어로 분류), ‘다중어 토픽 수’ (감동, 재미있고, 괜찮다는 3가지 언어로 문서 분류), ‘토픽 상관’ (토픽 간의 상관 지정) (4) 정보분석 과정 정보를 활용하여 ‘ 클라우드’, ‘컨셉링크’, ‘분류·군집분석’ 등에 의해 유용한 정보를 도출.

4. 연구결과 1) 워드클라우드 : 빈도가 높고 키워드일수록 큰 글씨로 중심부에 표현, 유용한 비주얼 분석도구 ‘스토리’, ‘재미있다’, ‘평점’, ‘아깝다’ 등의 단어를 주요 정보로 얻을 수 있다.

2) 컨셉링크 : 단어간의 관계를 시각적으로 나타내는 것 특정 단어를 기준으로 선의 굵기에 따라 중요성을 나타낸다.’재미있다.’는 연기, 스토리, 구성과 관련성이 높다= 영화에서 재미라는 것이 스토리, 구성, 연기, 배우 등 다양한 요소로 보인다고 해석할 수 있다.

3) 군중분석구분 영화의 제목 ‘유명한 단어’ 1. ‘수상한 그녀’, ‘신이 보낸 사람’, ‘플랜맨’, ‘피 끓는 청춘’, ‘재밌다’, ‘괜찮다’, ‘2. 멜로와 로맨스’, ‘좋은 친구’, ‘남자가 사랑할 때’, ‘사랑’, ‘결말’, ‘안타깝다’, ‘3. 드라마

4. 로지스틱 회귀분석

단계적 변수 선택법에 따라 SVD1, SVD3, 평점 평균 변수가 선택된다.모든 변수를 유의수준.05 하에 유의변수로서 얻을 수 있다.

제안한 모형에 의한 예측력 결과 34의 흥행 결과 32, 13의 비 흥행 예측 결과 13의 정분류율 95.74% 컷오프 점수는 0.5 분류 기준치별 정분류 행렬에 의거 결정

5. 결론 1) 표본을 어디서 얼마나 텍스트 데이터를 수집하느냐에 따라 분석 결과가 달라질 수 있다는 단점 2) 특이치 분해 적용에 초점을 두었으나 영화 흥행 예측 모형 도출을 위해 다양한 독립변인(별점, 장르, 개봉 시기) 등을 고려해야 한다고 판단된다.

* 단계적 변수 선택법 : 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나 모델에서 빠진 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가한다. 그리고 이러한 변수 추가 또는 삭제를 반복한다. 반대로 절편만 포함된 모델에서 출발해 변수 추가, 삭제를 반복할 수도 있다.