텍스트 마이닝의 방법론과 실제: 경험적 관점

11월 29, 2017 | IN POLICY | BY 김도훈

1. 서론

비정형 데이터 분석이 각광을 받고 있다. 그도 그럴 것이, 빅데이터가 넘쳐나는 요즘 세상에서 세상에 존재하는 데이터의 80% 이상이 비정형 데이터로 추산된다(Chakraborty and Pagolu, 2014). 그 중에서도 텍스트는 가장 기본적이고 광범위한 비중을 차지하는 비정형 데이터이다. 이런 텍스트를 언어학, 수학, 통계학, 컴퓨터공학 등의 학문적 지식을 이용하여 특정 목적에 맞게 유의미한 정보를 추출하는 분석 및 처리 과정을 텍스트 마이닝(text mining)이라고 한다.

비록 요즘 텍스트 마이닝이 빅데이터의 신기원을 여는 기술인 양 각광을 받고 있지만, 그에 활용되는 학문적 지식들은 사실 1970년대부터 활성화된 것으로, 대체로 반세기 정도의 역사를 갖고 있다고 볼 수 있다. 반대로 얘기하면, 지난 50여년간 축적되어 온 지식들이 최근의 빅데이터 시대에 어느 정도의 현실 정합성과 효과성을 가지는 지는 새로운 경험적 관점과 평가를 요한다.

필자는 비정형 데이터 분석에 전문성을 갖고 있는 리서치/컨설팅 회사를 운영하고 있다. 유럽에서 공부할 당시 사회심리학, 네트워크 과학, 사회과학 방법론으로서의 텍스트 분석이 주 전공이었고, 한국에 돌아와서는 수학, 통계, 컴퓨터공학 등의 전문가들과 함께 데이터 분석에 기반한 컨설팅을 10여년 가까이 업으로 하고 있다. 그 과정에서 느꼈던 텍스트 마이닝 방법론의 실제적 효용과 한계, 앞으로의 도전 과제에 대해 짤막하게나마 언급해 보고자 한다.

2. 텍스트 마이닝의 주요 방법론

텍스트는 다루기 어려운 데이터다. 허스트(Hearst, 1999)는 텍스트가 모호하고 추상적인 단어로 가득차 있고, 같은 단어도 문맥에 따라 개념이 변하며, 유사한 개념(동의어, 유의어)도 표현하는 다양한 방법이 존재하고, 통계적 관점에서 단어 하나하나가 각각의 차원을 이루기 때문에 쉽게 처리하기 힘든 고차원성을 가진다고 지적한다. 분석한 주요 특징을 시각화하기 어려운 것은 덤이다. 이러한 어려운 특징을 가진 텍스트의 핵심 의미를 캐내는 방법을 정형화하기 위해 수십년간 다학제적 연구가 이루어져 왔다고 이해할 수 있다. 그 결과, 몇가지 방법들이 널리 통용되게 되었다. 아래는 그런 자연어 처리의 주요 개념과 방법들의 예시이다.

텍스트 마이닝의 실제와 평가

실시간으로 데이터를 다루고, 고객에게 실제 도움이 되는 높은 품질의 분석 결과를 전달해야 하는 업계에서는 해당 기술들을 어떻게 활용하고 있을까? 사실, 행위자(업체, 연구자)에 따라 그 수준과 퍼포먼스가 천차만별이기 때문에 ‘업계’의 경험적 관점을 일반화하기는 어렵다. 그럼에도 불구하고, 나름 이 분야의 최전선에서 기존의 방법론을 테스트하고 새로운 방법론을 개발해 온 입장에서 몇가지 생각들을 정리해 본다.

첫째, 자연어 처리(Natural Language Processing)는 데이터 전처리-프로세싱-분석-해석으로 이어지는 텍스트 마이닝에서 제일 앞단을 차지하는 과정이다. 사회에서 사람들을 만나면, 자연어 처리 자체가 복잡한 데이터의 분석을 위한 프로세싱을 하는 전가의 보도인양, 잘못 이해하는 경우가 많다. 둘째, 앞서 설명한 벡터 공간 모델, 동시출현 단어, 토픽 모델링은 복잡한 텍스트의 모래에서 대강의 특징만을 추출한, 매우 거친 체와도 같다. 그 자체만으론 현실세계에서의 상식과 경험을 능가하는 통찰을 찾아내기 어렵다. 셋째, 감성분석, 의미연결망 분석, 머신러닝은 서로 융합되면서 보다 정교하게 발전할 여지가 많다. 단, 빅데이터의 크기가 방법론적으로 산적한 과제들을 자동적으로 해결해 주진 않는다. 새로운 이론적 가정과 방법론적 숙고가 필요하다. 마지막으로, 같은 맥락에서 머신러닝 역시 보다 나은 수퍼비전(supervision)을 위한 방법론적 천착과 데이터 테스트의 축적이 필요하다. 우리의 경험으로 봤을 때, 인공지능의 학습을 위한 초기의 데이터(seed data)를 정제하고, 인간의 통찰력과 가정을 적용하여 피드백을 받는 과정이 머신러닝의 품질과 실제 필드에서의 해석적 가치를 결정하기 때문이다.

참고 문헌

Chakraborty G and Pagolu M (2014) Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining. SAS Global Forum.
Hearst M (1999) Untangling Text Data Mining. Association for Computational Linguistics, University of Maryland, 20-16 June.

Kim L and Kim N (2015) Connecting opinion, belief and value: semantic network analysis of a UK public survey on embryonic stem cell research. JCOM, 14 (01), A01.
Kim L (2013) Denotation and connotation in public representation: semantic network analysis of Hwang supporters’ internet dialogues. Public Understanding of Science, 22(3): 335–350.
Salton G, Wong A and Yang C S (1975) A Vector Space Model for Automatic Indexing. Communications of the ACM, 18(11): 613-620.

[1] 필자가 고유한 전문성을 가지고 학계와 현실세계에서 기여해 온 영역 중 하나는 의미연결망 분석(semantic network analysis)의 방법론적 모델을 개선하고 정교화 하는 작업이다. 기존의 방법론이 단순히 동시출현 키워드들을 통계적으로 추출한 후 연결시킨 결과를 데이터로 시각화하거나 키워드의 네트워크 중심성을 이용하여 의미를 해석하는 데 반해, 키워드의 코딩, 추출, 해석 방법론을 혁신하고 현실세계의 문제를 해결하는 사례들을 축적해 왔다. 자세한 내용은 Kim, L. and Kim, N. (2015); Kim, L (2013) 참고.

Leo Kim
ARS Praxia CEO
leo_kim@arspraxia.com