'어벤저스'라 불린 그들...왜 AI OCR+프라이빗 LLM을 택했나 [스토리팩-업스테이지①]
사람의 뇌는 단순 정보보다 ‘이야기’를 좋아하고 감정과 기억도 더 오래 각인한다고 합니다. 디지털데일리 테크콘텐츠랩의 ‘스토리팩’은 혁신기업의 기술, 인재, 조직 관련 소재들을 책 한쪽 읽는 듯한 재미와 통찰로 풀어낸 기업별 연재 기획물입니다. <편집자주>
① 업스테이지 기술편 – AI OCR · 프라이빗 LLM
[디지털데일리 이건한 기자] ‘Making AI Beneficial’ – ‘적용하기 쉬운 인공지능(AI)을 만들어 누구나 그 혜택을 누리게 하겠다’는 업스테이지의 기업 슬로건입니다. 이런 목표 가운데 그동안 ‘AI OCR(광학문자인식)’, ‘프라이빗 LLM(폐쇄형 거대언어모델)’ 기술 개발에 집중한 업스테이지는 현재 국내외에서 가장 주목받는 AI 스타트업 중 하나가 됐는데요. 본편에서는 이들이 다양한 영역 중에서도 AI OCR과 LLM을 택한 이유, 그동안 거둔 성과들을 알기 쉽게 풀어보겠습니다.
1. 인트로 - ‘무늬만 AI’ 주의보
AI가 전 산업의 화두인 세상, 많은 기업이 ‘AI 퍼스트’를 외치는 요즘입니다. 하지만 AI를 진짜 잘 쓰는 것과 흉내만 내는 건 엄연히 다른 문제인데요. 그 진실은 기업들이 좀처럼 드러내기 힘든 고민 중 하나라고 합니다. 시대가 AI를 요구하니 대세를 따르고 싶은데, 기술력과 노하우가 부족하니 일단 잘 포장해서 ‘하는 척’이라도 하게 된다는 거죠. 이를 ‘AI 워싱(Washing)’이라고 합니다.
그런데 이제는 AI 워싱만으로 버티기 힘든 시기가 됐습니다. 먼저 지난해 미국 증권거래위원회(SEC)와 연방거래위원회(FTC) 등 강력한 제재 권한을 가진 기관들이 기업들의 AI 워싱을 경고하고 나선 바 있고요. 입력 후 결과물이 즉각 가시적으로 보여지는 생성형 AI가 주류로 떠오르면서 기업들의 AI 기술력 면면이 대중의 눈에도 드러나게 됐기 때문이죠.
일례로 천하의 구글조차 지난해 오픈AI의 챗GPT 대항마로 공개한 ‘바드(Bard)’가 발표 첫날부터 질문에 오답을 내놓는 등의 모습으로 망신을 당한 일이 있습니다. 빅테크도 흔들리는 상황에서 신규로 AI 도입이나 고도화를 준비 중인 기업들의 고민은 점점 깊어져만 갑니다. 설상가상, AI 인재 구인난도 심각한 요즘은 자체 기술력을 확보하는 일도 어렵게 됐거든요.
1-1. 타칭 ‘AI 어벤저스’ 업스테이지에 쏠린 눈
이런 상황에서 차선책은 쓸만한 ‘AI 파트너’를 구하는 일이었습니다. 명문 홍콩과기대 교수이자 네이버 AI 조직 책임자 출신의 김성훈 대표가 네이버 동료들과 업스테이지 창업을 결심하고, 업계도 업스테이지에 비상한 관심을 드러냈던 이유였습니다.
김 대표는 네이버 클로바AI팀 리더 시절 만난 많은 기업이 AI 비즈니스에 어려움을 겪는 점에 주목했다고 합니다. 안타까운 건 AI 도입에 필요한 충분한 수준의 데이터, 자본, 조직 규모 등을 갖춘 곳들조차 기술과 노하우가 없어 AI 도입을 망설였던 대목이었죠.
이를 비유하면 이렇습니다. 물이 들어왔고, 타고 나갈 튼튼한 배도 있는데 정작 노를 저어줄 사공이 아쉬웠던 상황이었다고 할까요? 이에 김 대표는 직접 그 노를 저어줄 사공이 되고자 했던 것이 업스테이지의 창업 배경입니다. 사명에도 ‘고객사를 AI 무대(Stage)로 올려보낸다(Up)’는 의미를 담았고 사업의 핵심 가치는 ‘Making AI Beneficial’로 설정했습니다. 시작부터 철저히 B2B(기업간거래) AI 파트너 기업으로서 회사를 포지셔닝 했던 거죠.
놀라운 건 창업 직후 ▲카카오 ▲엔비디아 ▲구글 ▲애플 ▲아마존 ▲메타 등 국내외 유수 IT 기업들의 AI 인재들이 속속 업스테이지 합류를 결정했던 점입니다. AI 업계에서 유명한 김 대표의 명망, 네이버 AI 조직 리더들이자 공동창업자인 이활석 CTO, 박은정 CSO가 어우러진 맨파워와 비전이 웃돈을 줘도 모시기 어려웠던 인재들의 자발적 참여를 끌어낸 겁니다. 이때부터 업스테이지에는 자칭 아닌 타칭 ‘AI 어벤저스’란 별칭이 따라붙기 시작했고요.
1-2. “가장 시급한 문제는…” 업스테이지 미션3
그리 낯간지러운 별명은 아니었습니다. 업스테이지 창업 직후, 정식 서비스 출시 전에도 1년간 무려 100개 이상의 기업이 업스테이지로부터 AI 기술 자문을 받았거든요. 크고 작은 기업들이 약 3일에 한 번꼴로 신생 스타트업의 문을 두드렸던 겁니다.
이때 업스테이지는 기업들이 가장 시급하게 필요로 하는 AI 기술로 ▲문서인식용 AI ▲초개인화 추천 AI ▲의미기반 검색 AI란 사실을 확인하게 됐습니다. 그 수요에 대응하고자 선택한 핵심 기술이 바로 AI OCR와 프라이빗 LLM이었죠.
2. AI OCR – 다큐먼트 AI
2-1. AI가 보험 서류를 이해하게 된 의미
OCR은 컴퓨터로 종이 문서나 사진 내 글자를 인식하는 기술입니다. 요즘 비대면 신분증 인증 시 카메라로 신분증을 찍으면 이름과 주민번호 등이 자동입력 되는데요. 모두 OCR 기반입니다. AI OCR은 인공지능으로 OCR의 인식률과 데이터 분류 기능을 인간 수준, 혹은 그 이상으로 극대화한 기술이죠.
AI 업계에서 이 기술이 중요한 이유는 다량의 문서 처리 및 AI 학습용 데이터 확보에 대단히 유용한 까닭입니다. 업스테이지는 2023년 10월 국내 1위 생명보험사인 삼성생명에 공급한 AI OCR 솔루션 ‘다큐먼트 AI’가 보험서류에 대해 평균 95%의 인식률을 기록했다고 발표했습니다. 문서 내 빼곡한 글씨는 물론, 보험 증빙서류를 제출하는 병원들의 형식도 제각각이라 OCR 기술 처리 난이도가 ‘극악’으로 평가받던 보험 분야에서 거둔 놀라운 성과였죠.
이는 경쟁사들 대비 두드러진 ‘비정형데이터’ 처리 및 분류 능력과 다각적인 학습 데이터 확보 노력으로 구축한 AI 비전인식 역량 등이 고루 어우러진 결과였습니다.
우선 비정형데이터란 숫자나 한 단어로 표현하기 어려운, 혹은 ‘표’ 형태로 구성하기 어려운 거의 모든 데이터를 말하는데요. 종류가 워낙 다양하고 양도 방대해서 소프트웨어 업계에선 오랫동안 처리가 어려운 난제에 속했습니다. 특히 사람을 대신할 수준의 데이터와 판단력을 가진 AI를 만들고자 한다면 비정형데이터 처리 능력도 사람만큼 끌어올릴 필요가 있었죠.
이에 업스테이지는 손글씨는 물론 흐린 문자, 구겨져 형태가 망가진 글자 등 각종 비정형데이터 처리 능력 확보에 많은 역량을 집중했습니다. 더불어 인식한 데이터를 정확한 카테고리로 분류하는 AI 기술에도 집중한 덕분에 복잡한 보험서류에서도 인간에 필적한 인식률을 달성하게 됐죠.
또한 양질의 비정형데이터 확보와 인식률 개선을 위한 내부의 노력도 따랐습니다. 가령 2023년에는 ‘사내 OCR 이미지 데이터 수집 챌린지’가 진행됐죠. 풍성한 보상을 걸고 임직원들이 직접 일상에서 마주하는 다양한 장면의 글자 데이터를 제출하도록 했던 이벤트였습니다.
이때 총 7570장에 달하는 고품질 데이터를 확보했다고 하는데요. 당시 세로쓰기 글씨, 양각 혹은 음각 글씨, 점과 선으로 이뤄진 글씨, 밑줄이나 형광펜이 그어진 글씨 등에 가산점을 주는 방식으로 기존 모델이 취약했던 부분을 보완했다고 전해집니다.
2.2 똑똑하게, 더 쉽게
앞서 업스테이지의 슬로건은 ‘Making AI Beneficial’이라고 했습니다. 이를 만족하려면 업스테이지도 경쟁사들보다 더 쉽고, 저렴한 AI OCR 솔루션을 만들 필요가 있었습니다. 그 결과 경쟁사 대비 4분의1 수준의 데이터만 있어도 고객사 도메인(분야)에 최적화된 맞춤형 AI OCR 개발에 성공했습니다. 이는 AI 도입 및 개발 비용이 줄어드는 효과가 있어 AI 업계에서 고평가되는 강점이죠.
또한 프로그래밍 전문가(개발자) 없이도 고객사가 ‘노코드(No code)’ 혹은 ‘로우코드(Low-code)’ 수준에서 솔루션을 제어할 수 있도록 솔루션 환경을 구축하는 일에도 힘쓴 결과 파트너사들의 높은 만족도를 끌어내는 일에도 성공했고요.
나아가 이런 환경이 보다 완벽하게 충족될수록 AI 수요 기업들은 자체 기술력과 전문인력이 충분하지 않아도 시대가 요구하는 AI 전환 수요에 대응하기 한결 쉬워집니다. 업스테이지가 그 첫걸음인 고성능 AI OCR 솔루션 개발에 집중했던 이유 중 하나이기도 하죠.
업스테이지에 따르면 다큐먼트 AI는 현재 삼성생명 외에도 한화생명이 보험심사 청구 자동화에 도입해 활용 중입니다. 현대글로벌서비스, 포스코 등 다수의 대기업도 사내 문서 디지털화에 다큐먼트 AI를 도입하는 등, ‘A to Z’, 고객의 잠재적 수요 충족에 집중했던 업스테이지의 노력은 이미 만족스러운 결과물로 돌아오고 있습니다.
3. 프라이빗 LLM ‘솔라(SOLAR)’
첫 단추를 잘 끼운 업스테이지의 다음 관심은 Private LLM(폐쇄형 거대언어모델)로 향합니다. 특징을 따지자면 AI OCR은 데이터 인식, 확보, 분류 등에 특화된 기술인데요. 다음 단계는 이렇게 확보한 데이터를 보다 광범위한 서비스에 적용할 수 있는 기술을 확보하는 것이기 때문입니다. 그런 측면에서 AI를 일상 속 ‘자연어’로 정밀하게 제어할 수 있도록 돕는 LLM 기술 개발은 어쩌면 업스테이지에 당연한 수순이기도 했고요.
3-1 명령어를 배우지 않아도 되는 세상
LLM은 기계가 인간의 자연어 질의를 이해하고 자연스러운 답을 낼 수 있도록 인공신경망(NLP)이 적용된 대형 언어모델입니다. 과거엔 정해진 ‘명령어’를 잘 써야 컴퓨터나 시스템을 효과적으로 다룰 수 있었죠. 전문가와 일반인을 나누는 척도 중 하나이기도 했습니다.
요즘은 다릅니다. 오픈AI가 개발한 LLM ‘GPT 3.5’ 기반의 챗GPT만 해도 사용자들은 명령어를 고민하지 않습니다. 처음 사용할 때도 채팅창에 친구에게 말하듯 편하게 질문하고, 답변이 부족하면 그 부분만 추가로 물어보면 됩니다. 그러면 챗GPT는 이전 대화의 맥락을 읽고 구체화된 질문에 따라 점차 사용자 의도에 부합한 결과물을 빠르게 내놓죠. 양질의 LLM이 적용된 덕이 큽니다.
3-2. 챗GPT는 만인의 연인? No!
기업도 이런 서비스를 사내에 도입할 수 있다면 방대한 데이터 처리, 의사결정 등에 정말 유용하게 활용할 수 있는 가능성이 큽니다. 그러나 실제로 챗GPT 같은 범용 LLM 기반 AI를 사업 전방위에 적용하긴 어려운데요.
특히 보안이 가장 예민한 문제로 꼽힙니다. 챗GPT 같은 공개형 서비스에 입력한 데이터는 추후 AI의 학습용 데이터로 활용될 가능성이 있습니다. 그러나 AI는 아직 무엇이 기밀인지 구분할 능력이 없습니다. 이 때문에 오픈AI도 ‘챗GPT에 민감한 내용은 입력하지 말라’고 명시한 바 있죠.
실제 국내에서도 2023년 모 대기업 사업장에서 임직원들이 챗GPT에 공장 설비정보를 입력했다가 적발된 사례가 있습니다. 공개형 AI 서비스의 한계를 잘 인지하지 못해 벌어진 일이었지만, 비슷한 사고는 언제든 되풀이될 수 있는 일입니다.
따라서 대안으로 떠오른 것이 기업 내부망에서만 운용되는 ‘프라이빗 LLM’입니다. 보통 독립형 클라우드나 외부 연결이 차단된 설치형(on-premise, 온프레미스) 인프라 위에 구축되는 프라이빗 LLM은 데이터가 외부로 유출될 가능성이 적습니다. 또한 이를 이용해 기업의 핵심 데이터들을 활용해 만든 AI 특화 서비스, 솔루션 등을 제작하는 부담도 크게 낮아지죠.
3-3. 가려운 데 긁어준 솔라, 순항 ‘청신호’
일찍이 이 잠재수요를 간파한 업스테이지는 2023년 경량 LLM인 ‘솔라(SOLAR, Specialized and Optimized Llm and Applications with Reliability)’를 개발하고, 이를 이용한 기업용 프라이빗 LLM 시장을 빠르게 공략해 나가는 중입니다.
솔라는 기업 서비스에 꼭 필요한 데이터만 사전에 눌러 담은 매개변수 10.7B(107억개)급 경량 LLM입니다. 챗GPT의 매개변수 규모가 175B(1750억개)임을 고려하면 굉장히 작은 규모지만, 그만큼 구축와 운영에 따른 비용 부담이 적고 기업 내 데이터를 처리하기엔 충분한 수준입니다.
특히 기존 경량급 LLM은 성능이 좋지만 사이즈가 다소 큰 13B 모델, 사이즈는 작지만 처리 능력이 아쉬운 7B 모델이 주류였는데요. 업스테이지는 자체 개발한 ‘Depth-Up-Sclaing’ 기술을 적용, 모델의 사고체계를 고도화해 LLM 분야에서도 적은 데이터로 13B급의 우수한 성능을 낼 수 있는 10.7B 모델을 세계 최초로 개발했죠. 여기에 파트너 기업의 데이터를 조금만 얹으면 각 기업에서 활용하기 좋은 LLM 서비스 개발도 보다 수월하게 진행할 수 있습니다.
업스테이지에 따르면 이미 커넥트웨이브, 롯데쇼핑 등 대형 커머스 기업들이 솔라 LLM 기반의 특화 솔루션 개발에 협력 중입니다. 이어 의료계, 교육계 등 보다 다양한 분야의 기업들과도 이미 계약이 예정돼 있죠. ▲검색 ▲요약 ▲조직화 ▲분류 ▲추출 ▲캐릭터화 등 다방면의 응용 서비스 개발에 활용할 수 있는 LLM 자체의 확장성 덕분입니다. 또한 업스테이지도 향후 1700조원 이상 규모로 성장이 예상된 글로벌 LLM 시장을 앞두고 솔라의 초기 순항은 꽤 고무적인 성과죠.
3-4. 챗GPT 꺾은 K-LLM의 자존심
더불어 선제적으로 확보한 AI OCR 기술은 LLM 성능 개선에 중요한 ‘데이터 구조화’에도 효과적인 시너지 효과를 낼 것으로 기대되고 있습니다. 실제로 업스테이지는 이미 글로벌 LLM 경쟁판에서 눈에 띄는 성과들을 거두고 있죠.
2023년 8월 허깅페이스의 ‘오픈 LLM 리더보드 1위’ 달성이 대표적입니다. 해당 리더보드는 세계 500여개 오픈소스 모델의 추론과 상식 능력, 언어이해 능력, 할루시네이션(허위정보) 방지 등 지표를 바탕으로 점수와 랭킹이 공개되는 플랫폼입니다. ‘LLM계의 빌보드 차트’로 불리죠. 업스테이지는 여기서 세계 최초로 GPT 3.5의 점수를 추월한 기념비적 이정표를 세웠습니다.
이어 9월에는 글로벌 생성형AI 활용 플랫폼 ‘Poe’의 메인 모델 중 하나로 솔라가 이름을 올리는 겹경사도 이어졌죠. 기존에는 오픈AI의 챗GPT, 구글 팜, 메타 라마, 엔트로픽 클로드 등 불과 4개의 LLM만 Poe 메인에 속했는데요. 솔라가 그 한자리를 차지함으로써 글로벌 LLM들과 어깨를 견줄 만하다는 평가를 확보하게 된 겁니다.
업스테이지는 이 기세를 몰아 직접 한국형 LLM 리더보드 활성화에도 나섰습니다. 그 일환으로 2023년 10월, 한국지능정보사회진흥원(NIA)와 손잡고 ‘Open Ko-LLM 리더보드’를 공개했는데요. 공개 2주만에 등록모델 100개를 돌파하며 업계의 지대한 관심을 받고 있습니다. 향후에는 Open Ko-LLM 주요 연구자들을 초빙해 오픈 세미나를 개최하는 등, 국내 LLM 생태계 활성화에 보다 적극적으로 기여하겠단 방침입니다. 아직 스타트업이지만, 이는 사실상 국내 LLM 업계에서의 리더십을 놓치지 않겠다는 의지로 풀이되기도 합니다.
4. 아직 배고픈 업스테이지
이처럼 업스테이지는 창립과 동시에 성공가도를 달리며 빠른 성장세로 존재감을 키워가고 있습니다. 보통의 스타트업이 흔히 겪는 무명기, 투자 가뭄과도 거리가 멀어 보입니다. 창업 1년 만에 316억원에 달하는 시리즈 A 투자도 유치했고요. 지난해 KT에서도 100억원을 확보했죠. 이미 충분한 저력을 선보인 만큼 향후 투자 라운드도 걱정할 필욘 없어 보입니다.
하지만 업스테이지는 여전히 지속가능성을 말합니다. 자사가 속한 AI 생태계도 계속 발전하려면 ▲데이터 공개 기준의 명확화 ▲기술 활용을 위한 파트너사 확보 등 함께 풀어갈 문제도 아직 많다고 보고 있죠. 업스테이지가 기업 대상의 유·무료 AI 교육 사업에도 박차를 가하는 이유입니다.
나아가 중장기 목표는 ‘고객사가 어떤 데이터를 들고 오더라도 목표한 성능 달성, 클라우드(SaaS, PaaS) 형태로 쉽게 사용할 수 있도록 돕는 것’이라고 설명했습니다. 사실 사업이 기대 이상으로 잘 이뤄지고 있고, 처음의 마음가짐이 다소 해이해질 수도 있는 시기인데요. AI를 누구나 쉽게 활용할 수 있도록 만들고 돕겠다는 ‘Making AI Beneficial’ 정신만은 여전히 업스테이지의 최우선 과제로 이야기되고 있습니다.
## 본 콘텐츠의 한층 풍성한 내용, 앞으로 나올 이야기를 미리 확인하고 싶다면 검색창에 ‘DD테크콘텐츠랩’ 혹은 ‘업스테이지 기술편 스토리팩’을 검색해 보세요! ##
비트코인이 불지른 가상화폐 ‘불장’… 금융당국, '이상거래' 모니터링 강화
2024-11-15 16:20:20[KB금융 '양종희 號' 1년 -上] 실적 무난했지만 내부통제 문제 심각… 빛바랜 성적표
2024-11-15 15:55:09한싹, 올해 3분기 12억원대 손실…AI 투자·인콤 인수 영향
2024-11-15 15:44:00“금융권 책무구조도, 내부통제 위반 제재수단으로 인식 안돼”
2024-11-15 15:19:31