국내 인터넷 업계를 대표하는 네이버(대표 한성숙)와 카카오(공동대표 여민수, 조수용)가 인공지능(AI) 미디어 스터디를 하루 차이로 잇달아 열었습니다. 국내 최고 AI 기술력을 확보한 두 업체의 연구 현황을 확인할 수 있는 자리라는 점에서 관심이 쏠렸습니다.
◆4시간이면 내 목소리가 복제된다
네이버는 4일 미디어 간담회를 통해 자체 개발한 AI 플랫폼 클로바(CLOVA)의 음성합성 기술력에 자신감을 보였습니다. 4시간이면 사람 목소리를 어느 정도 따라할 수 있다는 것인데요. 얼핏 들었을 땐 ‘거의 비슷하다’라고 할 만한 수준이었습니다.
네이버 자회사 라인이 연례 컨퍼런스에서 공개한 일본어 음성합성 시연을 보면 4시간 만에 상당한 품질로 화자의 음성을 구현한 것을 볼 수 있습니다. 물론 기계음성과 같은 느낌이 들지만 4시간이라는 시간을 미뤄보면 놀라운 수준입니다. 보다 긴 시간이 주어진다면 더욱 비슷한 수준으로 음성합성의 품질 고도화가 가능합니다.
이 같은 파형접합합성(Unit Selection based Synthesis, UTS) 기술은 AI를 만나면서 급속도로 발전 중입니다. 기존 UTS는 100시간, 기본적으로 40시간을 넘겨야 서비스 가능한 수준으로 합성 결과물이 나왔는데, 이를 4시간 만에 기존 결과물에 근접한 수준까지 발전시켰습니다.
네이버는 불특정 다국적 인원 30명을 대상으로 한국어·영어·일본어·중국어 음성합성을 구현했습니다. 네이버, 구글, 바이두의 음성합성 기술을 비교하기 위해서였는데요. 4개 국어 모두 상대 비교평가를 거친 결과, 참가자들이 네이버의 손을 들었다는 게 회사 설명입니다.
그렇지만 어디까지나 상대 비교평가 결과입니다. 음성합성의 품질이 높다지만 대다수는 기계음성임을 알아차릴 수 있다고 봅니다. 아직은 다른 서비스와 연결하는 것에 많은 고민이 필요하고 좀 더 자연스러운 UTS을 위한 기술 고도화의 문제도 남았습니다.
◆“윤리적 문제는 걱정할 만한 수준은 아냐”
네이버는 누가 들어도 알아채지 못할 정도로 목소리를 컴퓨터 음성으로 복제하려면 아직 많은 시간이 걸릴 것으로 봤습니다. 이와 관련해 “윤리적 문제는 걱정할 만한 수준은 아니다”라는 게 김재민 네이버 음성합성 리더의 입장인데요. 현재 기술 수준으로는 기계음성 여부는 자세히 들으면 알 수 있기 때문입니다.
그러나 안심할 수만은 없습니다. 사진 속 워터마킹처럼 업계도 사용자 임의 편집을 막기 위한 워터마킹을 시행 중이거나 고민하고 있습니다. 관련 업체에선 음성을 임의 편집 시 ‘합성음입니다’라는 배경 음성이 나오게 하거나 음악이 동시에 합성되도록 하는 방안을 내놨습니다. 네이버도 합성음을 알리는 부가정보를 넣는 등의 고민을 이어가고 있습니다.
◆‘AI와의 대화, 이제는 생활’ 카카오미니, 20만대 완판
카카오는 5일 미디어 간담회를 열고 스마트 스피커 카카오미니의 성과를 공개했습니다. 20만대(2018년 6월 기준)를 만들어 20만대를 판매했습니다. 이른바 ‘완판’입니다. 올 하반기 중엔 이용자들이 원하는 요소를 추가한 개선(업그레이드)품을 판매할 예정입니다. 기존 모델을 대체합니다.
카카오미니 이용현황을 보면 주간 사용률(전원연결기준 1주간 1번 이상 사용비율)이 80%입니다. 주간 사용시간은 5400만분, 이 가운데 음악 재생시간이 4000만분입니다. 사람들이 자주 카카오 스피커를 찾되 주로 음악감상용으로 활용했다는 것을 알 수 있습니다. 하루 평균 이용시간은 60분 이상으로 조사됐습니다.
가장 많이 사용한 기능은 음악재생과 함께 날씨정보, 알람 설정, 미세먼지 정보 등이 꼽혔습니다. 가장 많이 주문한 음식으론 치킨, 피자, 햄버거가 최상위에 올랐습니다.
카카오는 앞으로 카카오미니를 앞세워 더욱 생활 속으로 파고들 예정입니다. 이달 중에 자녀 교육 콘텐츠와 가상화폐 시세, 종교 콘텐츠(묵상) 추가를 앞뒀습니다. 3분기 중에 스피커용 게임도 선보입니다. ‘따라 읽기’, ‘퀴즈’, ‘음악 게임’ 등입니다.
◆카카오미니가 나를 알아본다
카카오도 국내 최고 수준의 자연어처리와 음성합성 기술을 확보하고 있습니다. 이미 음성 읽기는 기술 구현이 이뤄져 이제 서비스로 가져다붙이면 되는 상황입니다. 하반기 중 업데이트 예정인데요.
화자 인식·식별은 ‘카카오미니 라이프’에 예상보다 큰 변화를 가져올 수 있습니다. 보이스프로필을 설정할 경우 더욱 보안을 강화할 수 있는데요. 가족 간에도 프라이버시를 지킬 수 있습니다. 화자가 식별되면 채팅방을 특정하고 새로 온 메시지를 읽을 수도 있습니다.
이 수준이 더욱 발전하면 과연 화자 인증까지 갈까요. 이 부분은 기술 개발이 더 이뤄져야 하겠지만, ‘목소리로 본인인증까지는 어렵지 않겠냐’라는 게 업계 반응입니다. 위험하다는 것이 이유인데요. 이미 강력한 보안성을 갖춘 지문인증, 홍채인증이 활성화된 만큼 당장 목소리 인증의 필요성이 덜한 상황입니다. 일단 기술력 향상이 먼저입니다.