LG유플러스 '화자 음성인식' 체험
사람 목소리 고유 '주파수' 학습
보이스피싱 방지 등에 활용 가능할 듯
"내년 상반기 자사 서비스 도입 예정"
안녕하세요. 제가 지금 급해서 그런데 이 계좌번호로 송금 부탁합니다.
마이크에 대고 일부러 소리 지르듯 목소리를 높여서 말을 했지만 화면엔 '본인입니다'라는 메시지가 변함없이 떠 있었다. 목소리를 식별하는 인공지능(AI)이 앞서 일부러 낮은 목소리로 3초 정도 녹음한 기자의 목소리를 알아차리고 난 뒤다. 발화자가 목소리를 엉뚱하게 꾸미더라도 목소리에 들어 있는 고유의 특징을 AI가 알아내 같은 인물의 목소리임을 확인해준 것이다. 직후에 옆 사람이 '계좌번호'를 언급하자마자 화면에는 '보이스피싱 위험' 경고가 떴다.
LG유플러스가 최근 자체 개발 AI '익시(ixi)'를 바탕으로 '화자 음성인식' 기능을 직접 체험해 봤다. 이는 발화자의 목소리를 분석해 특징을 파악한 뒤 이를 통해 개인의 연령대와 성별을 나누고 기존에 등록된 발화자와 새로운 발화자가 같은 사람인지 확인해 주는 기능이다.
"사람 목소리, 지문 처럼 다 달라... AI가 프레임 단위로 학습"
해당 기능을 개발한 LG유플러스 최고데이터책임자(CDO) 조직 AI데이터기술그룹 음성기술팀의 이동현 선임은 "사람마다 타고난 성대를 가지고 있기 때문에 목소리도 지문처럼 서로 다른 '주파수'가 있다"고 표현했다. 발음의 특징, 속도, 억양, 성조, 목소리 높낮이, 음색 등을 AI가 프레임 단위로 학습한 후 분석해 개개인이 가진 고유 특성을 찾아낸다는 원리다.
실제 경험으로도 체감할 수 있었지만 객관적 지표로도 익시 화자 음성 인식의 적중률은 꽤 높은 편이라고 개발진은 전했다. 이들에 따르면 음성 인식 AI의 평가를 위해 유명인의 음성 데이터를 연구 개발 목적으로 공개해 둔 복스셀랩(Voxcelab)을 사용해 성능을 사전 테스트한 결과, 인식률은 99% 수준으로 나타났다.
다만 99%라 하더라도 100%는 아니기에 오류는 있을 수밖에 없다. 예를 들어 심한 감기에 걸렸을 때는 음색이나 목소리의 높낮이가 매우 달라져서 오류가 발생할 여지가 있다. 박지웅 AI음성기술팀장은 "딥 러닝 엔진이기 때문에 인식을 잘못하더라도 다시 학습해 정확도가 높아지는 구조"라고 설명했다.
TV 앞에서 아무 말 해도 IPTV 맞춤 콘텐츠 추천 가능
개발진이 보고 있는 이 기능의 가장 유력한 사용처는 보이스피싱(전화금융사기) 예방이다. 통화 상대방으로부터 들려오는 목소리를 기존에 등록된 가족, 지인의 목소리와 비교해 진위 여부를 판별할 수 있다는 것이다. 박지웅 팀장은 "아무리 성대모사를 잘한다고 해도 음성을 데이터로 분석하면 결국 식별이 된다"고 설명했다. AI 합성으로 만들어낸 목소리 역시 어느 정도는 구별이 가능하다. 사람이 내지 못하는 주파수 대역에 기계가 흔적을 남길 수 있기 때문이다.
반대로 복잡한 본인 인증 과정을 간소화하는 효과도 얻을 수 있다. 예를 들어 같은 기능을 인터넷(IP)TV에 도입할 경우 TV 앞에서 아무 말이나 하는 것만으로도 개인화한 프로필을 끌어내 맞춤형 검색과 추천 콘텐츠 등을 더 정확하게 찾아줄 수 있다. 콜센터에서도 상담 전화를 건 개인의 신원을 인증하는 방법 중 하나로 음성을 통한 화자 인증 방식을 고를 수 있다. 다만 목소리 역시 개인정보의 일종이기에 실제 서비스 형태로 나올 때에는 이용자의 동의를 받은 후 음성 데이터를 공부 해 인증에 활용한다.
화자 음성인식은 현재 핵심 기술 개발을 마치고 실제 적용에 앞서 시험해 보는 개념검증(PoC) 단계에 있다. LG유플러스 관계자는 "내년 상반기 보이스피싱 피해 예방 기능을 시작으로 AI 화자인식 기능을 LG유플러스의 여러 서비스에 도입할 계획"이라면서 "자사 서비스로 먼저 성과를 검증한 뒤에 다른 기업에도 기술을 상품화해 제공할 수 있을 것"이라고 말했다.
기사 URL이 복사되었습니다.
댓글0