상단여백
HOME 뉴스·정책
인간처럼 톤억양 재현한 음성을…
  • 정희용 IT칼럼니스트
  • 승인 2016.09.13 11:00
  • 댓글 0




구글의 인공지능 개발 부문인 딥마인드가 상황이나 감정에 따라 인간이 말하는 것처럼 톤이나 속도, 억양을 자연스러운 음성으로 출력할 수 있는 기술인 웨이브넷(WaveNet)을 개발했다. 이미 영어와 중국어의 경우 기존 TTS(text-to-speech) 기술을 압도하는 품질을 보인다고 한다.





음성 입출력 기술은 iOS에 있는 시리나 구글 나우 등이 이미 실용화되어 있어 친숙한 편이다. 하지만 인간의 목소리와 비교하면 적지 않은 위화감을 갖고 있기도 하다. 이런 가운데 구글 딥마인드가 개발한 웨이브넷은 기존 TTS 기술이 기본적으로 나뉘어져 있던 대량 음성 데이터베이스, 낱말을 단순히 합치는 기술이었던 데 비해 샘플링한 인간 음성을 딥러닝으로 음성 파형을 잘게 세분화해 분석, 음성으로만 알 수 없는 숨결이나 단어 혹은 문장끼리 합치는 방식까지 이해할 수 있다. 딥러닝을 이용해 샘플링 음성 다수를 분석해 인간처럼 미묘한 톤이나 억양, 말하는 속도 등을 재현할 수 있는 것.





웨이브넷은 영어와 중국어를 대상으로 데이터베이스를 기반으로 한 음성 연결 합성(concatenative TTS)이나 인간의 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 TTS 기술과 블라인트 테스트를 한 결과 모두 최고 점수를 기록하면서 인간에 육박하는 높은 점수를 기록했다고 한다.





TTS는 단어 샘플을 대량으로 준비해야 하지만 웨이브넷은 아예 음성을 만들어낼 수 있다. 남성과 여성 목소리의 변화는 물론 문맥에 맞는 음색과 감정을 담아 자연스러운 음성 출력을 할 수 있는 것이다. 웨이브넷은 물론 지금은 무거운 시스템 처리를 필요로 하지만 미래에는 하드웨어가 발전하고 인터넷 대역폭이 늘어나면 스마트폰 같은 모바일 단말에서도 활용될 것으로 기대된다. 관련 내용은 이곳에서 확인할 수 있다.

정희용 IT칼럼니스트  flygr@naver.com

<저작권자 © 테크홀릭, 무단 전재 및 재배포 금지>

정희용 IT칼럼니스트의 다른기사 보기
인기기사
추천기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
재미있는 테크월드 세상
여백
여백
여백
여백
여백
여백
여백
Back to Top