일반

음성인식 AI가 119 '골든타임' 확보를 돕는 법 [real! AI pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] "본부! 본부! 출동하라… 삼성 애니콜, 이젠 말로 거세요." 아마도 지금 30대 중반 이상인 독자라면 1997년, 배우 안성기가 출연한 음성인식 휴대폰 광고를 기억할 겁니다. 고작 '본부' 같은 짧은 단어를 인식할 뿐인데 당시만 해도 꽤 신선한 아이디어였고 첨단 휴대폰 기술 취급을 받았죠. 이후 폭발적으로 성장한 음성인식 기술은 인공지능(AI)과 만나 이제 지인에게 말하듯 길고 자연스레 말해도 무리 없이 처리하는 시대에 이르러 있습니다.

하지만 많은 사람이 여전히 음성인식은 AI 비서에게 명령하고, 자판에 타이핑할 내용을 대신 입력하는 수단, 또는 회의록을 처리하는 용도 정도로 여기고 있습니다. 그러나 알고 보면 고도의 정확도, 전문성을 갖춘 AI 음성인식 기술의 적용처는 우리의 기대 이상으로 다양합니다. 단순 재미를 넘어 사회적, 경제적으로 창출 가능한 부가가치도 상당하고요. 이번 이야기는 그동안 우리가 잘 몰랐던 AI 음성인식의 고부가가치 적용 사례, 활성화 방안 등을 셀바스 AI 윤재선 음성사업 대표가 실제 사례를 중심으로 설명해 드립니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

음성인식 전공하게 했던 SF영화 속 장면… "어느덧 현실"

안녕하세요, 윤재선입니다. 이젠 별로 놀랍지 않은, 음성이 회의록으로 자동 작성되고 회의록을 재생하면 화자의 목소리로 변환되는 등의 서비스는 20년 전만해도 '공상과학(SF)' 영화' 속 이야기였습니다. 저는 그런 영화 속 장면에 흥미를 느껴 HCI LAB(기계-인간 인터페이스 연구소)에서 음성인식 공부를 시작한 케이스인데요. 2002년 졸업할 무렵에도 음성인식 기술을 두고 L&H KOREA(벨기사 본사, 현재 파산)란 회사는 "말만하면 이루어지는 세상"이라고 광고했던 기억이 납니다.

그러나 그때 실생활에서 음성인식을 바로 적용 가능한 분야는 매우 한정적이었습니다. 사실 저 광고와 같은 세상은 오늘날에 이르러서야 비로소 조금씩 현실이 되고 있다고 볼 수 있는데요. 일부의 과장, 과대평가와 별개로 음성인식 기술은 지난 20년간 꾸준히 그 유용성과 사업성을 인정받으며 발전해온 산업이기도 합니다.

특히 음성인식이 두 손을 쓰지 못하는 공간에서 매우 효과적인 인터페이스란 사실은 2005년 삼성이 출시한 초기형 스마트폰 'SCH-M600'이 온디바이스(On-Device, 기기 내장형) 환경으로 탑재된 음성인식 기능을 이용해 운전 중에도 전화를 걸 수 있는 혁신을 보며 깊은 인상을 남긴 바 있습니다.

삼성 애니콜 SCH-M600 [ⓒ 삼성전자]
삼성 애니콜 SCH-M600 [ⓒ 삼성전자]

또한 2000년대 후반, 영어 학원에서는 선생님이 학생의 영어 발화 수준을 일일이 모두 듣고, 평가한다는 것도 '광고'가 된 시절이 있었습니다. 저는 여기서 아이디어를 얻어 국책과제를 통한 분석엔진 개발 및 사업화 진행에 나섰고, 현재 관련 사업은 셀바스AI 음성인식 연구소의 주요 캐시카우가 됐을 만큼 사업성이 확보에 성공한 바 있습니다.

정확한 인식, 초동대처 지원… 골든타임에 기여하는 AI

이런 일부의 사례만 봐도 알 수 있듯, 음성 인터페이스의 강점은 예나 지금이나 가장 편리한 입력 수단이자, 입력 시간을 단축할 수 있는 점에 있습니다. 특히 점점 더 복잡한 인식이 가능해지고 있으며, 앞선 편에서 언급했듯 AI를 활용한 전문 데이터 학습까지 이뤄질 경우 음성인식의 적용처와 부가가치는 대폭 확장될 수 있습니다.

그 중에서 지난 2023년 대전소방본부에 셀바스AI의 '지능형 119 신고접수 플랫폼'을 공급했던 결과가 기억에 많이 남습니다. 이는 119 종합상황실에 접수되는 신고 음성을 AI가 텍스트로 자동 변환하고, 이를 기반으로 상황별 질문까지 AI가 추천함으로써 ▲소방 출동대 자동편성 ▲출동 소방관별 표준작전절차(SOP) 제공 ▲효과적인 초동대처 등을 지원했던 건인데요.

[ⓒ 셀바스AI]
[ⓒ 셀바스AI]

시급을 다투는 119 신고 상황에서 단 1분이라도 '골든타임' 확보가 중요하단 이야기는 두 말할 필요 없이 우리 모두가 아는 사실입니다. 이때 AI가 신고자의 각기 다른 목소리, 상황 표현, 심지어 사투리를 쓰더라도 정확하게 인식하고 초동 대처를 위한 절차까지 신속 하달할 수 있다는 건 생각보다 큰 사회적 가치를 만들어 내는 일이었습니다. 또한 소방에서도 이를 알아주신 덕분에, 저는 같은 해 말 제61주년 '소방의 날'을 맞아 소방 업무 혁신에 대한 공로로 국무총리 표창까지 수상할 수 있었는데요. 정말 감사하고 보람찬 일이 아닐 수 없었습니다.

대전소방본부와의 인연은 이후에도 이어졌습니다. 다음 협업으로는 재난안전통신망(PS-LTE) 복합단말기에 음성인식 솔루션을 탑재하는 시도가 이뤄졌죠. 이번에는 복합단말기를 통해 ▲재난현장에서 이뤄지는 모든 무전 대화를 텍스트로 변환하고 ▲실시간 현장 모니터링과 상황 변화 관리를 AI로 지원하는 형태였습니다. 이 역시 급박히 돌아가는 재난상황에서 오가는 무전을 정확히 인식하고, 제대로 듣지 못했을 경우나 사후 상황 분석 및 관리를 위해 AI가 기여한다는 점에서 그 가치를 인정받을 수 있었지요.

인력 부족에 시달리는 의료업계… 한 손 거드는 AI

이밖에 최근 국내 의료현장은 전공의 이슈 등으로 만성적인 인력부족 상황에 시달리고 있습니다. 이 가운데에도 음성인식 기술은 특히 CT, MRI 등 영상 판독 업무를 하는 영상의학과나 핵의학과 중심으로 도움을 주고 있습니다. 이들 학과는 원래 영상 판독 후 결과를 프로그램 내 직접 입력 작성, 또는 전사자를 통해 입력하는 방법을 사용했습니다. 사실 어느 쪽이든 입력이 오래 걸리고, 후자는 의료진이 판독결과를 녹취하고 전사자가 재청취 및 내용 기입까지 해야 하므로 굉장히 비효율적이었습니다. 게다가 이젠 의료현장 내 인력까지 부족해지니 이 문제는 더욱 심화될 수밖에 없는데요.

[ⓒ 셀바스AI]
[ⓒ 셀바스AI]

이 부분에선 셀바스AI가 개발한 AI 의료 음성인식 솔루션인 '셀비 메디보이스(Selvy Medivoice)' 도입사(연세 세브란스, 삼성 서울병원, 차병원, 국립암센터, 인제대 백병원 등)들이 기존 대비 약 90% 이상의 프로세스를 음성인식으로 대체했다는 피드백을 전해왔다는 점에서도 음성인식 기술의 부가가치는 역시 기대 이상으로 상당하다는 사실을 느낄 수 있었습니다.

이처럼 단순한 단어로 전화나 걸 수 있었던 수준에서 어느덧 국민 안전을 지키는 현장, 특정 산업의 애로사항 해결에도 음성인식 기술이 활약할 수 있게 된 건, 업계인으로서 다시 돌아봐도 놀라운 변화라는 생각이 듭니다. 아마 앞으로도 이 같은 도입 사례가 잘 확장된다면 또다른 공공 행정의 영역, 스포츠나 안보의 영역 등 신속한 소통과 기록, 분석이 중요한 산업에서 AI와 음성인식이 활약할 기회는 앞으로도 무궁무진할 것으로 기대할 수 있을 겁니다.

넥스트 미션: 더 가볍게, 더 저렴해질 것!

다만 더 넓은 영역에서의 음성인식 상용화, 일상 침투를 위해선 유연한 솔루션 적용 방안과 고성능 음성인식 기술 확보가 필수적입니다. 무엇보다 솔루션 가동에 필요한 자원과 비용의 경량화는 가장 현실적이면서 중요한 과제입니다.

특히 대부분의 생성형 AI 서비스는 가동을 위해 많은 GPU 컴퓨팅 자원을 필요로 하며, 그 규모가 커질수록 운영 비용은 빅테크도 감당하기 어려운 수준으로 커질 수 있습니다. 따라서 가급적 저사양, 저렴한 하드웨어에서 AI 연산이 가능하도록 만들어야 하는데요. 음성인식처럼 키오스크, 로봇, 모바일 앱 등 메모리와 컴퓨팅 능력이 낮은 환경에 적용되는 기술은 이 점이 더욱 중요해집니다.

DALL·E AI 생성 이미지
DALL·E AI 생성 이미지

이를 위해 셀바스AI는 GPU가 아닌 더 저렴한 CPU에서도 제품 구동이 가능하도록 기술 개발에 집중해왔고, 실제로 가시적인 비용 절감 효과를 얻고 있습니다. 또한 음성인식률 향상을 위해선 기본 엔진에 추가 데이터 학습이 필수인데, 이 또한 기업 입장에서 비용 부담이 큰 문제입니다. 저희는 이를 지원하기 위해 QTM (Quick Text Model) 이라는 모델적응학습 툴도 개발했고요. 덕분에 비전문가도 추가 학습 및 모델 업데이트가 가능해져 관련 비용 절감에 큰 도움을 줄 수 있었습니다.

물론 이런 노력이 결코 저희만의 것이 아니지만, 확실한 건 대중이 음성인식을 더욱 산업과 일상 깊이 받아들이길 원한다면 바로 우리 같은 사업자들부터 그들의 페인 포인트 해결을 위해 다각적인 기술 개발에 힘쓰길 멈추지 않아야 한다는 점일 것입니다.

데이터 활용 규제 완화, AI 강국 도약에 필요한 시점

더불어 정부의 정책적 지원이 필요한 부분도 있습니다. 계속 강조하지만 음성인식 기술은 태생적으로 환경적 요인(소음 등)으로 인해 인식률 100%를 기록하기 어렵습니다. 따라서 기본 모델에 적응학습을 더한 성능 개선이 중요한데요. 문제는 의료, 법률 등 특수 산업에서 발생하는 데이터는 개인정보를 비식별화해도 외부 반출이 어렵고, 사실상 거의 불가능하단 점입니다.

그러나 높은 AI 인식률을 위해선 고도화된 모델과 데이터가 필요한데, 애초에 데이터 반출이 안되는 아이러니한 상황인 거죠. 결국 현재는 직접 해당 기관, 기업에 들어가 비효율적인 학습 절차를 거치면서 비용 부담은 늘고, 서비스 구축에 많은 시간이 소요되는 문제가 있는데요. 이는 곧 AI 음성인식 서비스 대중화를 그만큼 늦추는 요인이 됩니다.

현재 우리 정부가 전 산업에서 다각적인 AI 혁신과 고도화를 꿈꾸고, 관련 정책 지원에 최선을 다하고 있음을 알고 있습니다. 다양한 사례와 업계 애로사항 청취 차원에서 한국도 해외처럼 연구 및 개발이 목적일 경우 개인정보를 비식별화 하는 조건으로, 모든 연구자가 사용 가능한 데이터 시스템이 구축되길 희망한다는 메시지를 전해 봅니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널