5명의 대통령 발언 1,000만자 어떻게 분석했나

[문재인 대통령 3년 딥러닝 분석]

‘워드투벡터’ 기법 적용... 단어를 의미군으로 묶어

한국일보는 7일 문재인 대통령의 발언 1,054건을 ‘워드투벡터(Word2Vec)’ 기법으로 분석했다. 게티이미지뱅크

한국일보는 문재인 대통령의 발언을 정밀 분석해 문재인 정부의 정체성을 정의하고자 했다. 2017년 5월 10일 대통령 취임사부터 2020년 5월 4일 청와대 수석보좌관회의 발언까지, 지난 3년간 문 대통령의 발언 1,054건을 전수 분석했다. 연설ㆍ축사ㆍ회의ㆍ대담 등을 합해 글자수는 183만4,679자에 달한다.

분석 방법으로는 인공신경망(Artificail Neural Network) 기술이 적용된 자연어 처리(임베딩) 기법 ‘워드투벡터(Word2Vec)’를 한국 언론 최초로 사용했다. 워드투벡터는 데이터에 딥러닝(Deep Learning) 기법을 적용, 말뭉치를 수학적 벡터로 변환하는 기술이다. 특정 단어가 어떤 단어들과 의미군(群)으로 묶이는지를 심층 분석하고, 단어의 맥락적 의미 등을 유추할 수 있다.

문재인 대통령이 2017년 5월 10일 국회에서 19대 대통령 취임식을 마치고 떠나며 부인 김정숙 여사와 함께 시민들에게 손을 들어 인사하고 있다. 한국일보 자료사진

문 대통령의 국정 철학을 입체적으로 평가하기 위해 국가기록원에 등록돼 있는 김대중(855건ㆍ222만6,897자)ㆍ노무현(797건ㆍ190만5,447자)ㆍ이명박(819건ㆍ197만8,145자)ㆍ박근혜(493건ㆍ96만361자) 전 대통령의 연설 등도 함께 분석했다. 집권하기 전과 후의 생각 변화를 살펴보기 위해 문 대통령의 19대 국회의원 시절 발언 등 642건(83만2,999자)도 분석 대상에 포함했다. 본보가 분석한 발언을 모두 합치면 927만1,528자에 달한다.

코딩에는 파이썬(Python)을 활용했고, 형태소 분석은 ‘은전한닢’(Mecab-ko)을 썼다. 워드투백 학습시 스킵그램(Skip-Gram) 모델을 적용했고, 한번에 학습할 단어 개수는 8개(window=8), 차원은 300차원(size=300)으로 설정했다.

신은별 기자 ebshin@hankookilbo.com

5명의 대통령 발언 1,000만자 어떻게 분석했나

당신이 관심 있을 만한 이슈

LIVE ISSUE

댓글0

5명의 대통령 발언 1,000만자 어떻게 분석했나

이 기사와 관련된 기사

당신이 관심 있을 만한 이슈

정치 많이 본 뉴스

LIVE ISSUE

댓글0

5명의 대통령 발언 1,000만자 어떻게 분석했나

보내는 분