일반

20대에 180편 썼다...'AI 논문머신' 박찬준 이야기 [스토리팩-업스테이지⑤]

이건한 기자

사람의 뇌는 단순한 정보보다 이야기를 좋아하고 감정과 기억도 더 오래 각인한다고 합니다. 디지털데일리 테크콘텐츠랩의 '스토리팩'은 혁신기업의 기술·인재·조직 관련 소재를 책 읽는 듯한 재미와 구성으로 풀어내는 기업별 연재 기획물입니다. <편집자주>

[디지털데일리 이건한 기자] 1996년생. 아직 20대 청년이 나이에 AI 자연어처리 및 데이터 관련 논문을 180편(공동저자 포함) 이상 썼다면 혹시 믿어지나요? 심지어 그 논문 중 상당수는 내로라하는 국제학회들에도 이름을 올렸고요. 흡사 '광기'란 단어를 떠올리게 하죠. 게다가 논문에만 매달린 것도 아닙니다. 최근에는 AI 분야에서 핫한 LLM(거대언어모델) 분야에서도 업계가 주목하는 프로젝트들을 주도하며 올해 포브스의 '코리아 30세 미만 30인'에도 선정됐죠. 바로 박찬준 업스테이지 Data Centric LLM 연구팀 수석 연구원입니다.

박찬준 업스테이지 수석연구원
박찬준 업스테이지 수석연구원

한 우물이란 이런 것

AI도 아닌데 어떻게 이런 일들이 가능했을까요. 직접 만나보니 그가 걸어온 '외길 커리어'와 '단순한 생각'에서 답을 찾을 수 있었습니다. 박 연구원은 부산외대 언어처리 창의융합과에서 자연어처리 기술과 처음 인연을 맺었다고 합니다. 졸업 후에는 세계에서 가장 오래된 기계번역 기술회사 시스트란에 입사했고 고려대 컴퓨터과학과 임희석 교수 연구실에서 석박사 통합과정까지 밟으며 철저히 언어와 데이터 중심의 AI 기반 지식을 쌓았죠.

특히 우연인지 필연인지 그가 발을 딛는 곳마다 그에게 '도태될 틈'은 주어지지 않았는데요. 시스트란은 사회 초년생인 그에게 1년여간 ▲실시간 강연 통역시스템 개발 ▲전략기획 ▲영업 및 연구 등 다양한 업무를 부여했습니다. 고려대에서는 '연구실 내 스타트업'처럼 운영된 '고려대 기계번역 연구그룹(KUNMT Group)'을 꾸려 박 연구원이 기계번역 연구 겸 조직 운영을 겸하게 했고요. (당시 4명의 팀원과 쓴 논문만 100여편에 달함) 현재 업스테이지에선 그가 쌓은 지식과 경험을 다양한 형태로 구체화할 자유를 주고 AI 산업에서 가장 경쟁이 치열한 LLM 파트에 박 연구원을 배치했죠. 단순한 우물이 아니라 '물이 꽉 찬' 우물을 쉴 새 없이 파온 셈입니다.

박찬준 연구원과 임희석 고려대 컴퓨터학과 교수
박찬준 연구원과 임희석 고려대 컴퓨터학과 교수

적성이 없으면 노력으로 만든다

여기에 '열심히 하면 적성이 될 것'이란 단순하고 황당한 생각도 오늘날 박 연구원을 만든 원동력입니다. 사실 그는 문과출신이라며 "과학보다 사회과학을 좋아했고 수식보단 사람 대하는 일이 좋아서 선생님을 꿈꿨다"고 말했는데요. 아이러니하게도 지금은 이과의 정점인 AI 업계에서 AI만큼 일하는 사람이 됐죠. 작은 착각에서 비롯된 일이었습니다.

찬준: "처음에는 4년 장학금을 준다는 말에 부산외대 언어처리 창의융합과에 입학했어요. 그런데 알고보니 자연어처리 기반의 AI를 중점적으로 배우는 곳이더라고요. 그러면서 처음으로 'C언어'라는 프로그램 코딩 언어를 접했는데 배우면서 굉장히 고생한 기억이 납니다. 하지만 그때부터 열심히하면 언젠가 적성이 될 것이란 생각으로 악착같이 공부했어요."

다소 무모해 보인 이 집념은 결국 '될 것'을 '됨'으로 만들어 버렸습니다.이 가운데 자연어처리 기술의 진짜 매력도 깨달았다고 하죠. 덕분에 지금은 누구보다 이 일에 매력과 열정을 쏟는 사람이 됐습니다. 실제로 박 연구원의 업스테이지 동료인 강윤기 엔지니어도 그를 "겉으로 무리라고 보이는 일을 목표로 잡고 어떻게든 해내는 사람"이라고 평가하더군요.

가치와 꿈이 일치하는 회사

이런 박 연구원의 지금 목표는 'Value driven LLM(가치 중심 LLM)' 실현입니다. 그가 직접 만든 말이라고 하는데요. 큰 틀에서 '공유에 기반한 공동성장'을 화두로 합니다. 실제로 그동안 그가 참여하고 주도한 프로젝트 대부분은 매출 실현보다 업계 내 AI 데이터 및 LLM 생태계 확산에 도움을 주는 서비스와 기술의 비중이 높았습니다.

가까운 예로 최근 업스테이지는 자사의 모든 AI 데이터 전처리 노하우를 담은 '데이터버스(Dataverse)'를 무료로 공개한 일이 있습니다. 데이터 전처리는 AI가 학습할 데이터 중 '쓰레기'를 거르는 작업인데요. 가장 양질의 데이터만 추리되 적은 양으로 최고의 성능을 구현하는 것이 좋은 AI의 미덕인데 그 노하우를 전부 공개해 버린거죠. 이를 통해 더 많은 연구자들이 데이터 전처리의 시행착오를 줄여 좋은 AI 모델을 만들고, 그들의 경쟁이 곧 전체 AI 산업을 더 빠르게 발전시킬 것이란 기대 때문이었습니다.

생성형 AI 시대에는 사람과 AI의 소통 장벽을 허물 LLM의 역할이 더욱 중요해진다 (ⓒ 생성형 AI 'DALL·E')
생성형 AI 시대에는 사람과 AI의 소통 장벽을 허물 LLM의 역할이 더욱 중요해진다 (ⓒ 생성형 AI 'DALL·E')

한창 성장해야 할 스타트업에서 이런 선택이 가능했던 건 박 연구원의 가치관과 업스테이지의 핵심 슬로건인 'Making AI beneficiail(유익한 AI를 누구나 쉽게 쓰도록 만든다)'의 방향성이 일치했던 덕분입니다. 업스테이지는 지난 스토리팩 콘텐츠에서 소개된 것처럼 AI 시대에 공유와 조력의 가치를 높이 사는 회사인데요. 실제로 박 연구원처럼 그에 부합하는 인재들을 엄격히 선발함으로써 단기간에 AI 업계까 주목하는 성과들을 잇따라 만들어올 수 있었던 거죠.

그중에서도 박 연구원과 업스테이지는 찰떡궁합을 자랑합니다. 이를테면 ▲업스테이지가 개발한 LLM '솔라(SOLAR)'가 'LLM계의 빌보트 차트' 격인 허깅페이스 Open LLM 리더보드에서 글로벌 기업들이 만든 모델을 제치고 1위를 차지한 일 ▲한국어 특화 LLM들이 경쟁하는 Open Ko-LLM 리더보드를 성공적으로 안착시킨 일 ▲LLM 데이터 저작권 문제 해결과 데이터 공유 생태계 형성을 위한 국내 '1T 토큰클럽'을 결성한 일 등 여러 굵직한 일들을 함께 만들어왔죠. 모두 업스테이지의 국내외 인지도를 높이고 핵심 비즈니스 모델인 솔라의 비즈니스 판로 개척에도 큰 영향을 미치고 있는 성과들입니다.

박찬준 연구원 공식 프로필 이미지
박찬준 연구원 공식 프로필 이미지

동사로 꾸는 꿈

그는 자신의 꿈과 목표를 다음과 같이 말했습니다.

찬준: 저는 꿈을 명사로 꾸는 것이 아닌 동사로 꾸는 삶을 살아가고 있습니다. 즉 저의 꿈은 '가르치다'라는 동사입니다. 동시에 'Overflow'라는 키워드를 말씀드리고 싶습니다. "흘러넘치게 하라"는 말인데요. 지식과 열정을 넘치게하여 동료들에게 긍정적인 영향을 주는 사람이 되고자 합니다. 남을 도울 때 내가 성장한다는 사실도 항상 기억하겠습니다."

더불어 그는 "지금이 굉장히 재미있고 즐겁다"고 말합니다. 일과 논문은 물론이고 이런 인터뷰조차 그래보입니다. 여담이지만 박 연구원은 질문 5개짜리 질의서에 1만4000자에 달하는 방대한 답변서를 보내오기도 했습니다. 그런데 그 빼곡한 글자 안에서도 대면 당시에 느꼈던 그의 번쩍이던 눈빛과 음성이 그대로 읽히는 듯해 웃음이 나더군요. 하지만 그 또한 목표를 향한 '순수한 광기'가 아니었을까요?

실제로 박 연구원의 꿈은 작지 않습니다. 나아가 이제는 '국가 단위 LLM 생태계 조성'이 목표라고 하는데요. 그간의 행보는 모두 이를 준비하는 '예고편'이었는지도 모르겠네요. 아울러 그가 몸 담고 있는 업스테이지도 지금은 LLM 역량을 발판 삼아 글로벌 탑티어 AI 회사로 발돋움하기 위한 전사적 역량을 기울이는 시기입니다. 이처럼 여전히 같은 목표와 가치를 향해 달려갈 이들의 시너지 효과가 올해는 또 어떤 놀라운 성과로 이어질지 기대가 커지는 대목입니다.

※ 원본 및 더 풍성한 콘텐츠 보기 ▶ 구글에 'DD테크콘텐츠랩' 또는 '박찬준 스토리팩' 검색

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널