미국 유머도 번역하는 AI, 어떻게 만들까? [real! AI pro]
AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>
[디지털데일리 이건한 기자] 생성형AI 시대에 접어들며 일상과 밀접해진 AI 서비스 종류는 대폭 늘었습니다. 특히 앞으로는 'AI 에이전트'로 불리는 특화, 또는 범용적 기능의 개인 AI 비서들도 빠르게 확산될 전망인데요. 이처럼 일상 전반을 공유하는 AI 비서라면, 이제 각 사회의 언어나 문화 트렌드를 깊이 이해하는 역량이 필수로 요구되는 시대도 곧 올 것입니다. 언어와 문화란 내가 속한 사회는 물론, 세계 어디에서도 원활한 소통과 이해를 뒷받침하는 기본 요소이기 때문입니다.
가령 '유머'는 모든 사회에 존재하지만 '유머코드'는 제각각입니다. 우리가 평소 미국식 유머를 잘 이해하지 못하고 웃기 어려운 이유는 크게 두 가지입니다. 해당 유머의 바탕이 되는 문화적 이해가 없는 것, 그 때문에 '우리식(현지화)'으로도 잘 번역되지 못하는 까닭입니다.
재미난 예로 2021년 넷플릭스에서 글로벌 히트를 친 '오징어게임'에는 다음과 같은 장면이 있습니다. 극중 '상우'가 주인공 '기훈'에게 오징어게임에 참가한 이유로 “주식은 그렇게 크지 않고, 선물을 했어…”라고 말하는 장면이 있습니다. 여기서 상우가 언급한 선물은 주식의 파생상품을 말하는데요. 막상 주식을 잘 모르는 기훈이 “선물? 선물로 그 돈을 썼어? 아니, 누구 선물을 얼마나 비싼 걸 산거야? 여자 생겼냐?”라고 반문해 관객들의 웃음을 터트린 장면이었죠.
이는 한국에서 '선물(present)'과 '선물(stock futures)'이 동음이의어라 연출 가능했던 장면이었는데요. 해외 버전에서는 이 포인트를 어떻게 살려야 할까요? 이때, 번역가들의 활약이 도드라집니다.
특히 일본 오징어게임에서는 상우가 선물에 대해 “파생상품(데리바티부, デリバティブ)을 했어”라고 표현하고, 이를 기훈이 “배달(데리바리, デリバリ)? 배달을 얼마나 시켰길래 돈을 그렇게 많이 썼어? 뭘 시킨 거야?”라고 재치 넘치게 번역돼 눈길을 끌었습니다. 선물의 본 의미를 최대한 살리면서 일본어 중 엉뚱한 의미의 동음이의어까지 찾아 웃음 포인트를 살려낸 사례죠.
그리고 이런 번역가의 역할은 이제 자연어 마스터가 되어가는 AI에게도 공이 넘어가고 있습니다. 사실 우리가 접하는 방대한 양의 해외 콘텐츠 전부를 소수의 센스 넘치는 번역가 의역에만 맡길 순 없는 노릇인데요. 그렇다고 디지털 세상에 갇힌 AI가 과연, 끊임없이 변화하는 인간사회 문화와 트렌드에 대한 이해를 갖고 문화 통일에 기여할 수 있을까요?
이 흥미로운 이야기를 이어서 국내 AI 데이터 및 통번역 전문솔루션 기업의 이정수 대표가 직접 들려드립니다. 2012년 플리토를 설립한 이 대표는 중동에서 태어나 사우디아라비아, 영국, 미국 등에서 유년 시절을 보내면서 자연스레 언어에 대한 관심을 가지며 성장했다고 하는데요. 이를 바탕으로 대학 재학 중 플리토의 모태가 되는 크라우드소싱 번역 서비스 '플라잉캐인(Flyingcane)' 창업, SK텔레콤 및 SK플래닛에서 M&A 및 벤처기업 투자 담당 이력 등을 지닌 언어기술 전문가로 꼽힙니다.
언어 마스터 AI도 정복하지 못한 영역, '유머'와 '문화'
안녕하세요, 이정수입니다. 요즘 AI 발달로 일상 속 웬만한 외국어 번역은 그리 어렵지 않은 시대가 됐습니다. 하지만 인터넷상에 넘치는 다양한 밈(Meam)이나 유머 콘텐츠는 여전히 높은 언어장벽 아래, 여전히 대부분은 같은 언어권 내에서만 제한적으로 소비되고 있죠.
물론, 요즘 글로벌 빅테크 기업들의 SNS는 언어장벽 해소에 꽤 노력하는 듯합니다. 대개 몇몇 언어로 된 자동자막을 제공하며 소통을 유도하지만 이 또한 극히 제한적인데요. 특히 전문용어나 유행어, 축약어가 많이 나오는 콘텐츠일수록 자동번역의 품질은 더욱 떨어져 아쉬움을 남깁니다.
AI는 이 문제를 해결할 주요 수단으로 꼽힙니다. 대신, 이것이 가능하려면 꽤 다양한 기술이 수반되어야 합니다. 대표적으론 이미지에서 글씨를 읽어내는 OCR(광학문자인식) 기술, 배경을 인지하는 딥러닝 기반의 인페인팅(inpainting), 콘텐츠를 읽는 소비 대상이 누구인지 인지해서 적합한 언어와 말투로 번역해주는 NMT(인공신경망 기계번역) 등인데요. 그리고 무엇보다, 인간의 도움이 굉장히 중요합니다. 적어도 문화와 유머를 다루는 콘텐츠의 영역이라면 말이죠.
언어장벽 없는 글로벌 커뮤니티 개발의 애환
이를 이해하기 위해 아주 잠시만 재미없는 얘기를 하겠습니다. AI를 구성하는 모델(Model)과 데이터(Data)에 관한 것입니다. 이 둘의 역할을 빗대면 모델은 요리사, 데이터는 주재료에 해당하는데요. 현실에서도 요리의 맛 70%는 재료의 신선함이 좌우한다는 말이 있을 만큼, AI도 모델이 최고의 성능을 내려면 고품질 데이터 준비의 중요성이 대단히 높습니다. 이때 고품질은 '신뢰도 높은 정확성을 지닌 데이터'란 말로도 설명 가능합니다.
자, 이를 바탕으로 다시 유머 콘텐츠 번역으로 돌아가 봅시다. 아직 대외적으로 공개하지 않았던 사실인데, 요즘 플리토는 '언어장벽이 없는 글로벌 커뮤니티 사이트'를 개발 중입니다. 미국의 유명 커뮤니티 '레딧'의 이미지 소통 버전이라고 할 수 있죠. 쉽게 말해 사용자가 어느 나라에 살고 있든 모국어로 된 콘텐츠를 올리면 타국의 사용자들은 이를 자신의 언어로 완벽히 이해하고, 다시 댓글로 소통할 수 있는 형태가 될 것입니다. 더 구체적으론 한국의 10대들이 쓰는 유행어로 적힌 콘텐츠가 중동에선 중동의 10대 유행어로 완벽히 번역되어 보여질 것입니다.
플리토는 이를 가능케 하려고 수년 전부터 단계별로 준비를 해왔습니다. 그중 가장 큰 난관은 역시 콘텐츠 원문의 어감과 나라별 유행어를 함께 살리는 의역 품질을 높이는 일이더군요.
이를 극복하려면 앞서 말했듯, AI가 각국의 유행어나 문화적 맥락을 정확히 이해할 수 있도록 기반 데이터의 품질이 참 중요한데요. 이론과 달리 끊임없이 생성되고 사라지고, 변화하길 반복하는 문화 영역의 언어 데이터를 기업이 빈틈없이 관리한다는 건 불가능에 가까웠습니다. 이 점은 정제된 데이터 확보가 상대적으로 수월한 '기업용 AI'와 달리 소비자 간 소통을 위한 AI를 만들 때 주요한 애로사항이기도 합니다.
이에 플리토는 '집단지성의 힘이 필요하다'는 결론을 내렸습니다. 대신 많은 사람이 한땀, 한땀, 지식을 제공해 만들어졌던 위키류 서비스와 달리, AI의 강력한 생산성, 재학습을 통한 성능 개선, 자동화 요소를 최대한 접목하는 것이 골자였습니다. 이때 인간은 집단지성으로서 최소한의 데이터 제공과 검수 역할에만 집중할 수 있도록 말입니다.
해당 개념을 접목한 저희 서비스는 현재 커뮤니티 내에 콘텐츠 게시 직후 AI가 1차로 자동번역을, 이후 현지 유저가 직접 번역에 참여할 수 있도록 설계돼 있습니다. 또한 콘텐츠 번역마다 '좋아요', '싫어요' 등 평가 기능을 넣어 번역 품질이 좋은 콘텐츠는 자동으로 상위에 노출되도록 했죠.
이 구조의 핵심은 크게 4가지입니다. 첫째, 인간이 직접 번역에 참여함으로 콘텐츠의 맥락 전달이 자연스러워집니다. 둘째, 번역된 콘텐츠 품질을 소비자들이 평가하므로 인간의 기준에서 센스 있게 번역된 콘텐츠, 기준 등의 데이터가 축적됩니다. 셋째, AI는 해당 데이터를 재학습함으로써 동일한 유머코드, 유행어 기반 콘텐츠 자동번역 품질을 빠르게 높여 인간의 의존도가 낮아집니다. 넷째, 인간은 번역에 참여함으로써 콘텐츠 소비 외에도 부가적 보상을 획득할 수 있게 됩니다.
즉, 적절한 보상을 제공함으로써 센스 좋은 언어능력자들이 AI는 쉽게 학습하거나 이해하기 어려운 유머 콘텐츠 분석에 필요한 데이터를 생성하게 하고 AI는 이를 신속하게 재학습에 반영함으로써 성능을 향상시키는 순환 고리를 만드는 겁니다.
AI는 만능이 아냐... 여전한 인간 개입의 중요성
듣고 보니 완전 자동번역이 아니라 아쉬운가요? 아마 미래에 AI가 실시간으로 인간과 사회적으로 함께 살아가고, 우리와 동일한 시선과 관점에서 콘텐츠를 소비하는 시대가 오면 가능할지 모르겠습니다. 그러나 현세대 AI에게 그것은 불가능할 뿐더러, 그만큼 인간이 수동적으로 공급하는 데이터 의존도가 여전히 높습니다.
특히 반복해 말하지만, 언어는 특성상 규칙과 데이터 특징이 변하지 않는 '체스' 같은 분야와 달리 자기복제식 학습이 어렵습니다. 다른 예로 '잘나갔던 시절'을 의미하는 은어로 '리즈 시절'이란 말이 있죠? 이를 단순히 잘나가던 시절로 의역하기보단 '라떼'처럼 최근의 유행과 문화코드를 적절히 활용한 형태로 AI가 잘 변환하려면 인간의 개입을 배제하기란 정말 어렵습니다.
따라서 이 시점에 문화, 트렌드 관련 콘텐츠에서 AI를 잘 활용하고자 한다면, 서비스 기업 입장에서 집단지성과 AI를 최대한 잘 결합하는 것이 최선이란 판단을 도출해낼 수 있습니다. 이는 지금의 AI가 결코 'AGI(범용인공지능)' 수준의 '만능', 혹은 도깨비방망이가 아니란 사실을 인정하면서도, 어떻게 인간과 AI가 서로 윈윈(Win-Win)하는 방향을 찾아갈 것인가에 대한 고민의 결과물이기도 합니다.
AI가 언어장벽을 부수면 생겨날 일
이처럼 인간과 AI가 상호협력을 통해 높디높았던 언어장벽을 빠르게 부술 수 있다면, 기업과 소비자를 잇는 정말 다양한 형태의 비즈니스 또한 새롭게 만들어질 것으로 기대하고 있습니다.
또 하나의 예로, 플리토가 개발 중인 서비스 중에는 전세계 소비자와 식품회사가 포장지의 QR코드 하나로 소통할 수 있는 다국어 서비스도 있습니다. 단순히 식품정보를 번역하는 지금의 수준에서 나아가 식품 관련 이벤트나 후기 참여도 전세계 소비자와 기업 대상으로 확장할 수 있도록 만드는 것이죠. 각종 이벤트도 나라별 문화, 유행을 기준으로 만들어진다는 점을 생각하면 저희가 앞서 구현할 집단지성+AI 시너지형 커뮤니티에서 확보하는 데이터와 노하우가 이 영역을 개척하는 데에 긍정적인 영향을 미칠 것으로 기대하고 있습니다.
플리토만의 비즈니스가 아닙니다. 기기에서 직접 작동하는 온디바이스(On-divce) AI 기반의 전자기기들이 점차 확산되고 있습니다. 삼성전자만 해도 올해 1월과 7월 두차례에 걸쳐 온디바이스 통역 기능을 앞세운 휴대폰을 출시해 큰 반향을 얻은 바 있습니다.
이것이 나아가 요즘 빅테크들이 공들이는 스마트 글래스 기기로 확산되면? 1995년의 PC, 2009년의 아이폰 혁명처럼 어느날, 우리는 자연스레 스마트글래스를 착용하고 우리가 보는 세상의 모든 간판을 모국어로 읽고, 영상통화 중에는 실시간 번역 자막을 제공받는 등의 삶을 살아가게 될 것입니다.
물론 이때도 양질의 언어데이터셋 구축은 중요한 과제가 될 겁니다. 플리토 역시 전세계 1400만 사용자를 대상으로 24시간 각종 언어 데이터, 음성, 이미지 등을 확보하고 있으며, 지금도 태국어, 베트남어, 타갈로그어 등 저자원 언어 데이터 사전 구축을 위해서도 많은 힘을 쏟는 중입니다. 이와 관련해 다음에는 더 구체적인 '국내 AI와 데이터의 미래'를 주제로 찾아뵙겠습니다.
IP캠 취약점 알아내기 쉽다…'자급자족' 스캔도구 만드는 해커들
2024-11-15 08:57:33토스, 올해 3분기 매출 5021억 원…분기 최대 실적 기록
2024-11-15 08:55:39삼성전자 노사, 임협 5.1% 인상·패밀리넷 200만 포인트 합의
2024-11-14 19:53:31SK C&C, 3분기 매출 5835억원…전년비 12.1%↑
2024-11-14 18:06:27