e비즈*솔루션

오픈AI, 음성으로 개발자 돕는 ‘실시간 API’ 공개…4가지 신규 지원 기능 선봬

오병훈 기자
[ⓒ오픈AI 공식홈페이지 갈무리]
[ⓒ오픈AI 공식홈페이지 갈무리]

[디지털데일리 오병훈기자] 오픈AI가 개발자를 위한 지원 도구 음성 지원 응용프로그램 인터페이스(API)를 비롯한 다양한 추가 기능을 선보였다.

1일(현지시간) 오픈AI는 ‘오픈AI 데브데이’를 개최하고, ▲실시간 API ▲비전 AI 파인튜닝(미세조정) 도입 ▲프롬프트 캐싱 ▲AI 모델 증류 등 신규 기능을 소개했다.

먼저 실시간 API는 6가지 사전 설정 음성을 사용해 AI 모델과 개발자 간 음성 대 음성 대화를 지원하는 기능이다. 이전 음성 지원 기능은 개발자가 자동 음성 인식 모델을 사용해 음성을 텍스트로 전환하고 이를 다시 AI 모델에 전달해 음성 변환을 사용해야 했기 때문에 중간에 부자연스러운 억양이 출력되는 문제가 있었다.

실시간 API는 오디오 입력 및 출력을 직접 스트리밍해 개발자에게 보다 자연스러운 대화 성능을 제공한다. 앞서 지난달 25일 출시된 챗GPT 고급 음성 모드와 동일하게 각종 음성 조정 기능들이 포함됐다.

비전AI 파인튜닝을 통해서는 더 많은 이미지 데이터셋을 기반으로 GPT-4o 이미지 인식 성능을 개선했다. 그 예시로 모빌리티 플랫폼 ‘그랩’에서는 비전 데이터 파인튜닝을 사용해 기존 GPT-4o 모델보다 차선 수 정확도를 20%, 속도 제한 표지판 위치 인식 정확도를 13% 개선할 수 있었다는 것이 오픈AI 측 설명이다.

프롬프트 캐싱은 개발자가 최근에 사용한 캐시 데이터를 재사용할 수 있도록 해 개발 시간을 단축시켜주는 기능이다. 이때 발생하는 비용에는 50% 할인율이 적용된다. 이를 통해 개발자는 작업 과정 중 응답 대기 시간을 최대 80%까지 줄이고, 비용도 아낄 수 있다.

마지막으로 AI모델 증류 기능도 도입된다. AI모델 증류란 거대 AI 모델이 학습한 데이터를 비교적 소형인 AI 모델에 압축·전송하는 것을 의미한다. 비교적 작은 규모로 제작되는 소형언어모델(sLM)은 거대언어모델(LLM)보다 비용이 저렴하고, 처리 효율이 뛰어나다는 장점이 있다. 개발자는 모델 증류 기능을 통해 ‘GPT-4o 미니’와 같이 가격 대비 성능에 초점을 맞춘 모델을 파인튜닝하고 개선할 수 있게 됐다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널