일반

오픈AI, '고급 음성모드' 출시..."노래·작곡엔 제한 걸어"

이건한 기자

[디지털데일리 이건한 기자] 오픈AI가 챗GPT의 고급 음성(Advanced Voice)을 24일(미국 현지시간) 공개했다. 한국어를 포함한 50개 이상의 언어를 지원하며 5가지의 새로운 음성, 보다 자연스러운 억양 처리가 가능해진 것이 특징이다. 이번주부터 유료 사용자를 대상으로 앱(iOS, 맥OS, 안드로이드) 사용자들에게 순차적으로 배포될 예정이며, 엔터프라이즈 버전과 대학용 에듀 모델은 차주부터 지원된다.

챗GPT 고급 음성모드 소개 [ⓒ 오픈AI SNS 및 챗GPT 앱 갈무리]
챗GPT 고급 음성모드 소개 [ⓒ 오픈AI SNS 및 챗GPT 앱 갈무리]

신규 음성모드의 특징은 '자연스러움'이다. 실제 사람과 구분하기 힘든 정보의 자연스러운 억양은 물론이고, 대화 중 끼어들기에도 능숙하게 대응한다. 한국어의 사투리 처리 능력도 개선됐으며 사용자의 대화 속도 등 비언어적 신호 및 감정변화에 대한 인지, 챗GPT 스스로도 다양한 감정의 음성을 소화할 수 있다.

대부분의 요청을 소화하지만 '욕설' 등 오픈AI의 안전 지침에 위배되는 요청은 응답을 거부하거나, "더 재미있는 대화를 할 수 있다"며 화제 전환을 유도하기도 한다.

오픈AI에 따르면 고급 음성모드는 기본 텍스트 기반 대화창에서 함께 이용할 수 없다. 또한 유료 사용자라도 음성대화가 무제한으로 제공되는 게 아니다. 트래픽 제한을 위한 것으로 보인다. 오픈AI는 "음성 채팅의 일일 사용량 제한은 매일 변경될 수 있다. 당일 사용 가능한 음성량이 15분 남으면 별도의 알림이 표시될 것"이라고 밝혔다. 사용량 초과 시 일반 표준 음성으로 대화를 지속할 수 있다.

더불어 억양 조절이 자연스러운 고급 음성모드의 성능을 보면 노래나 작곡도 가능할 것으로 보이지만 그렇지 않다. 오픈AI는 이 점에 대해 "창작자들의 권리를 존중하기 위해 새로운 필터를 비롯한 몇 가지 개선사항을 적용, 노래를 포함한 음악 콘텐츠로 응답하지 못하게 제한했다"는 설명이다.

고급 음성대화는 기존 텍스트 기반 대화와 마찬가지로 종료 후 대화 내용이 텍스트로 변환되어 저장된다. 다만, 대화 진행 중에는 실시간 변환 자막이 진행되지 않아 내 입력이 정확히 챗GPT로 전달됐는지 확인하기 어려운 점은 아쉬운 대목이다.

고급 음성대화 내용은 직후 텍스트로 변환돼 저장된다. [ⓒ 오픈AI]
고급 음성대화 내용은 직후 텍스트로 변환돼 저장된다. [ⓒ 오픈AI]

한편 오픈AI는 최근 AI 추론 성능을 대폭 강화한 신규모델 '오픈AI o1'을 공개하며 구글, 메타 등 경쟁사들에 앞서 기술 진보 측면에서 또 하나의 이정표를 세운 바 있다.

o1은 기존 모델보다 답변 제공 속도가 느려지는 대신 AI 모델이 질문에 대해 다양한 단계로 논리적 숙고를 거침으로써 대학원생 이상의 추론이 가능한 것으로 알려져 있다. 특히 추론 과정의 일부가 노출되므로 논리의 근거 파악, 추론 결과를 바탕으로 한 깊이 있는 문제해결 방안 획득 등 고급 지식과 연구를 요하는 분야에서 큰 반향을 몰고올 것으로 기대되고 있다.

이번 고급 음성모드도 AI 업계가 총력을 기울이고 있는 '일상 속 AI 에이전트', 소통 가능한 AI를 구현하는 경쟁력 측면에서 자연스러운 소통 능력을 바탕으로, 다시 한번 경쟁사를 앞선 것으로 평가된다. 샘 올트먼 오픈AI 대표도 고급 음성모드 공개를 앞두고 "AI가 점진적으로 세계를 의미 있게 개선할 것"이라며 "AI 모델이 의료 서비스를 비롯한 특정 작업을 수행하는 개인비서 역할을 할 것으로 예상한다"고 밝히기도 했다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널