머신러닝 업계 대표는 "대화 상대방 동의 없으면 문제"
"혐오 발언, 편향된 데이터 통해 학습된 듯"
인공지능(AI) 챗봇 '이루다'가 학습한 채팅 데이터가 당사자 동의 없이 무단 이용됐다는 비판에 휩싸였다. 이루다를 개발한 스캐터랩이 과거 개발한 애플리케이션 '연애의 과학' 이용자들이 상대방의 심리 분석을 위해 제공한 카카오톡 대화 내용을 이루다의 대화 내용을 구성하는 기반으로 삼아 학습시킨 것으로 드러났기 때문이다.
개발사 스캐터랩의 최예지 제품 총괄매니저는 15일 MBC 라디오 '김종배의 시선집중'에 출연해 이와 같은 논란에 대해 "내부 검토 결과 법적 문제가 없는 것으로 판단했고, (외부) 법적 검토도 큰 문제가 없다는 얘기를 들었다"고 주장했다.
다만 업계의 다른 종사자들은 스캐터랩의 이런 주장이 업계의 관행과는 맞지 않는다고 보고 있다.
"당사자 중 1명이 동의... 문제 없다고 내부 판단"
최예지 매니저는 이날 개인정보 유출 논란에 관해 '연애의 과학' 데이터를 사용하는 것이 법적인 문제가 없는 것으로 봤다고 했다.
최 매니저는 "(연애의 과학이) 수집이나 이용에 동의를 받는 방법 같은 경우에는 다른 서비스랑 비슷하다"면서 "대화 당사자 중 1명이 동의해서 (채팅) 내용을 업로드했기 때문에 내부적으로 문제가 없을 걸로 판단을 했다"고 설명했다.
이어 "법률적으로 검토를 받았는데 큰 문제가 없다는 얘기를 듣긴 했지만 미흡한 부분이 있지 않았나 생각해 앞으로 서비스 개선에 충분히 반영하려 한다"고 말했다.
이외에 '몇몇 특정 개인정보가 유출됐다'는 지적에 대해선 "숫자나 영어 등은 익명화 처리하는데, 이를 우회해서 표현한 것들, 예를 들면 숫자를 한글로 표현한다든가 하는 사례가 드러난 것"이라며 "대화는 파편적으로 나오고 이루다의 대화는 연속 대화가 아닌 개별적 문장이기 때문에 조합해서 누군가 특정하긴 힘들다"고 주장했다.
또 '연애의 과학' 고객의 대화 내용을 일부 직원이 돌려 봤다는 의혹에 대해서는 "진상조사위원회를 구성해 조사를 진행하고 있는데 그런 사례는 발견되지 않았다"고 밝혔다.
지윤성 대표 "카톡 대화까지 저작권 계약하는 마당에" 비판
하지만 업계에선 이런 해명이 개인정보 보호에 관한 문제 제기를 완전히 해소하지 못하고 있다고 봤다.
데이터 분석과 머신러닝 전문 기업인 '링크브릭스'를 운영하는 지윤성 대표는 같은 날 출연한 라디오에서 "학습데이터 수집을 위해 카카오톡 대화를 이용할 경우 저작권 계약까지도 하게끔 권고하고 있다"고 밝혔다.
또 대화 당사자 둘 중 한 명이 동의해 법적인 문제가 없다는 업체 주장에도 지 대표는 "예를 들면 대화내용을 100억건 수집했다고 하면 정상적으로 보면 대화 상대방 내용이 50%인 50억건이 있다는 것"이라며 문제 소지가 있다고 했다.
대화 상대방뿐 아니라 '연애의 과학'을 이용한 당사자들조차도 불만을 토로하고 있다. 일부 이용자들은 "자신의 표현이 고스란히 챗봇 대화에 쓰일 것이라고는 생각하지 않았다"며 집단 소송을 준비하고 있다.
지 대표는 "개인정보보호법상 개인정보 처리라는 건 데이터를 수집하는 것부터 최종 파기까지의 전 과정을 얘기하고 있는데, 각 과정 내에서 명확하고 또 직접적으로 데이터를 공유해준 분들한테 공지를 해줘야 되는데 그런 과정이 현재 없는 것 같다"고 봤다.
스캐터랩은 '연애의 과학' 외에도 상대방의 심리를 분석하는 유사한 앱 '텍스트앳'과, 통상 연인 2명 사이에서만 대화가 가능한 '비트윈'의 채팅을 분석하는 '진저' 등도 내놓은 바 있는데 이들 앱의 이용자도 '연애의 과학' 이용자처럼 자신들의 채팅 내용이 이용된 게 아닌가 하는 의심을 거두지 못하고 있다.
혐오발언은 왜? "AI가 아닌 데이터 편향성 문제"
개인정보 유출 이전에 문제가 된 소수자 혐오발언과 성희롱에 동조하는 문제에 대해서 스캐터랩 측 최예지 매니저는 "1차적인 필터링 기능을 만들어 부적절한 단어리스트들, 혐오발언을 미리 제거를 하거나 대응할 수 있게 했지만 이를 우회해서 (유도)하는 경우가 생겼다"고 말했다.
또 이루다가 "특정 표현에만 대응한다고 해도 이전 문맥이 이미 부적절한 표현이 있으면, 문맥 흐름에 따라가는 답변을 하게 되면서 동조하는 것처럼 보일 수도 있다"고 밝혔다.
하지만 이런 해명은 성소수자 등 특정 키워드에 대해 선제적으로 혐오 발언을 내놓은 사례들을 고려하면 불충분한 것으로 보인다.
지윤성 대표는 이루다가 혐오발언을 하게 된 배경은 "AI 알고리즘 자체의 문제라기보다 학습한 데이터의 편향성 문제라고 본다"며 "특정 세대의 데이터만 사용했다면 그 세대들이 비뚤어진 의식을 가지고 있다고밖에 볼 수 없다"고 밝혔다.
이어 "10대 20대 카톡 데이터 말고도 커뮤니티가 카페에 공개된 웹데이터도 무차별 수집해서 사용한 것이 아닌가 하는 게 업계의 의문"이라며 "데이터 출처나 소스, 이런 것에 대해서 투명하게 밝힐 필요가 있을 것 같다"고 지적했다.
스캐터랩은 과거 챗봇 연구 과정에서 '위키백과'나 '나무위키' 등 공개 편집이 가능한 위키 엔진 기반의 '온라인 백과사전' 사이트의 자료를 수집해 학습시켰다고 밝힌 바 있다. 이들 위키 사이트는 정책상 저작권이 있는 내용을 올릴 수 없어 내용을 자유롭게 인용 배포하는 것이 가능하다.
기사 URL이 복사되었습니다.
댓글0