[문재인 대통령 3년 딥러닝 분석]
‘워드투벡터’ 기법 적용... 단어를 의미군으로 묶어
한국일보는 문재인 대통령의 발언을 정밀 분석해 문재인 정부의 정체성을 정의하고자 했다. 2017년 5월 10일 대통령 취임사부터 2020년 5월 4일 청와대 수석보좌관회의 발언까지, 지난 3년간 문 대통령의 발언 1,054건을 전수 분석했다. 연설ㆍ축사ㆍ회의ㆍ대담 등을 합해 글자수는 183만4,679자에 달한다.
분석 방법으로는 인공신경망(Artificail Neural Network) 기술이 적용된 자연어 처리(임베딩) 기법 ‘워드투벡터(Word2Vec)’를 한국 언론 최초로 사용했다. 워드투벡터는 데이터에 딥러닝(Deep Learning) 기법을 적용, 말뭉치를 수학적 벡터로 변환하는 기술이다. 특정 단어가 어떤 단어들과 의미군(群)으로 묶이는지를 심층 분석하고, 단어의 맥락적 의미 등을 유추할 수 있다.
문 대통령의 국정 철학을 입체적으로 평가하기 위해 국가기록원에 등록돼 있는 김대중(855건ㆍ222만6,897자)ㆍ노무현(797건ㆍ190만5,447자)ㆍ이명박(819건ㆍ197만8,145자)ㆍ박근혜(493건ㆍ96만361자) 전 대통령의 연설 등도 함께 분석했다. 집권하기 전과 후의 생각 변화를 살펴보기 위해 문 대통령의 19대 국회의원 시절 발언 등 642건(83만2,999자)도 분석 대상에 포함했다. 본보가 분석한 발언을 모두 합치면 927만1,528자에 달한다.
코딩에는 파이썬(Python)을 활용했고, 형태소 분석은 ‘은전한닢’(Mecab-ko)을 썼다. 워드투백 학습시 스킵그램(Skip-Gram) 모델을 적용했고, 한번에 학습할 단어 개수는 8개(window=8), 차원은 300차원(size=300)으로 설정했다.
신은별 기자 ebshin@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0