“음성인식은 선택 아닌 필수”…구글, ‘음성 앤써·액션’ 기능 발표
[디지털데일리 이대호기자] “스마트워치와 TV, 구글글래스에선 과거의 인풋(입력) 방식이 적용될 수 없다. 미래엔 컴퓨터 활용방식에 있어서 음성이 매우 중요한 역할을 담당하게 될 것이다. 이제 음성인식은 필수다.”(구글 모바일 검색 부문 디렉터 스티브 챙)
4일 구글코리아는 서울시 역삼동 강남파이낸스센터 회사 사무실에서 ‘보이스 온 모바일’ 미디어 라운드테이블을 열고 ‘음성 앤써(Answer)’와 ‘음성 액션(Action)’ 기능을 발표했다.
이번에 구글이 발표한 두 기능은 음성 검색에서 한층 발전된 기술이다. ▲앱 실행 ▲문자와 이메일 전송 ▲전화걸기 ▲일정등록 ▲알림 설정 등 다양한 명령을 내릴 수 있으며 자연어 음성 질문에 대해서는 직접 음성으로 답을 해준다.
음성 앤써의 경우 자연어 질문에 대한 답을 주는 기능이다. 예를 들어 “오늘 날씨는?”, “이백구십오 곱하기 삼십칠 더하기 팔은?(295X37+8)”, “10마일은 몇 킬로미터?”와 같은 질문을 하면 검색결과를 노출하는 것이 아니라 바로 답을 보여준다. 날씨의 경우 사용자의 현재 위치를 파악해 해당 지역의 날씨를 알려주며 다른 지역의 날씨를 물어보면 그 지역의 날씨를 알려준다. 이때 답을 음성으로 말해주기도(토크백) 한다.
음성 액션은 각종 앱, 기능들을 실행 시키는 명령어 인식 기능이다. “남편에게 전화 걸어"라는 말로 주소록에 저장된 사람에게 전화를 걸 수도 있고, “홍길동에게 ‘지금 고속도로가 막혀서 회의에 좀 늦을 것 같아요’라고 문자 보내”라는 긴 문장을 말로 불러주면 구글의 음성인식 기능을 통해 이를 인식 후 분석해 해당 사람에게 문자를 보낸다.
스티브 챙 디렉터는 이 같은 기능 소개에 앞서 구글의 음성인식 기술이 고도화됐다고 수차례 강조했다. 그는 “수년동안 음석인식 연구에 집중했다. 30밀리세컨드(ms, 1000분의 1초) 단위로 소리를 나눠 이를 음소와 매핑하고 이 음소들을 모아 단어로 그리고 문장까지 구성하게 된다”고 설명했다.
음성입력 시 문맥 파악도 가능하다. 버락 오바마의 나이를 물어본 뒤 곧바로 키를 물어볼 경우 두 번째 질문에서 오바마를 대명사(He)로 지칭해도 제대로 된 답을 보여준다. 이에 대해 챙 디렉터는 “큰 대화흐름 내에서 정보를 파악할 수 있다”고 강조했다.
이해민 구글 한국 검색 프로덕트매니저는 “음성인식을 많이 사용할수록 정확도가 개선될 것”이라며 “한국은 음성인식 품질이 높은 편이다. 많이 사용하는 것도 한 몫 하지만 기계가 학습하기에 한글이 좋다”고 부연했다.
구글은 이날 발표에 앞서 구글 액션 API를 공개했다. 음성인식을 통한 외부 앱 실행을 위해서다. 국내에서 이 API를 활용한 앱은 없는 상태다. 구글 측은 이 API를 활용해 현재 여러 개발사에서 앱을 개발 중이라고 전했다.
<이대호 기자>ldhdd@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48