다음카카오, 음성합성 엔진 ‘뉴톤 톡’ 음색 강화
- 자체 개발 한국어 운율 적용…일상적 음성 표현 가능
[디지털데일리 이대호기자] 다음카카오(www.daumkakao.com 공동대표 최세훈, 이석우)는 음성 합성 오픈 API(애플리케이션 프로그래밍 인터페이스) ‘뉴톤 톡(Newtone Talk)’의 낭독체 음성을 개선하고 대화체를 추가 제공한다고 17일 밝혔다.
뉴톤 톡은 다음카카오가 지난 6월, 기본 낭독체를 탑재해 첫 선을 보인 음성 합성 엔진으로 입력된 문장을 음성으로 변환해준다. 자체 개발한 한국어 운율 모델을 이용해서 사람의 발성을 재현하고, 대용량·자동화 처리 기술에 의해 다양한 한국어 문장을 빠르게 학습하고 운율을 예측하기 때문에 효율적이라는 게 회사 측 설명이다.
다음카카오는 뉴톤 톡의 새로운 낭독체가 사람이 읽어주듯 자연스러운 음성이 특징이라고 밝혔다. 밝고 부드러운 음색의 성우가 기존 낭독체보다 2배 이상 많은 문장을 녹음한 데이터를 이용했기 때문에 어떠한 문장 조합에도 유연하게 대응할 수 있으며 음질 향상을 위해 합성 방법을 목소리의 여러 주파수 별 파형을 조합하는 방식으로 바꿔서 딱딱한 기계음이 만들어질 가능성을 최소화했다고 강조했다.
예를 들어 ‘안녕’이라는 단어가 문장 앞 부분에 있을 경우 끝 음을 올리고, 문장 중간에 포함될 경우 앞뒤 단어와의 연결에 따라 끝 음을 내리거나 동일 음조로 처리하는 식이다.
다음카카오 구동욱 음성처리파트장은 “뉴스나 책 구절 등의 장문 낭독을 대신하거나 모바일 메시지를 대화체 음성으로 변환하고, 시각 장애인을 위한 생활형 서비스를 개발하는 등 다양한 영역에서 뉴톤 톡의 기능이 활용될 수 있다”며 “뉴톤 톡의 지속적인 강화와 사용 확대가 모바일 환경에서 음성 기술 영역 전반의 발전을 이끌게 될 것”이라고 말했다.
뉴톤 톡은 한 번에 최대 30초 분량의 음성을 합성하고, 입력된 글자의 분석부터 음성화까지 0.1초 안에 처리한다. 현재 뉴톤 톡에서는 남녀 화자 각 하나씩의 낭독·대화 음성으로 총 4개의 음색을 사용할 수 있다.
뉴톤 톡 API는 누구나 다음 개발자 네트워크(http://dna.daum.net/affiliate/newtone)에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다.
<이대호 기자>ldhdd@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48