배경훈 LG AI연구원장 "빅테크-한국 AI 모델은 비등한 수준"...향후 관건은?
[디지털데일리 이건한기자] "지금 나오는 빅테크(오픈AI, 메타, 구글 등)들의 AI 모델이나, LG 엑사원을 비롯한 한국 AI 모델들이나 기술적으로 큰 차이는 없습니다. 대부분 '트랜스포머-디코더'란 공통의 구조를 활용 중이며, 그 구조에 누가 더 좋은 데이터를 효과적으로 넣을 수 있을지가 관건이 됐기 때문입니다."
배경훈 LG AI연구원장은 10일 국회의원회관 제2세미나실에서 열린 '국회AI포럼 초청 특별강연' 연사로 나서 이렇게 말했다. LG가 개발한 자체 AI 모델 '엑사원(EXAONE)'이 최근 3.0 버전에 이르러 메타의 라마보다 훨씬 적은 데이터로도 뒤지지 않는 성능을 낸 이유도 단순히 학습 데이터 수만 늘리는 것이 아니라, 모은 데이터를 고품질로 가공하는 데 집중한 덕분이란 설명이었다. 또한 당장 모든 문제를 풀 수 있는 범용인공지능(AGI)을 기대할 것이 아니라, 현실적으로 실사용 가능한 수준의 전문가 AI 개발에 힘써야 한다고 강조했다.
AI가 '환멸의골짜기', '거품론'에 시달리는 이유
배 원장은 하나의 예시로 "오픈AI도 지금보다 강한 추론 능력을 지닌 AI 모델을 만들려면 더 많은 데이터와 컴퓨팅 인프라 투자가 필수이며, 이로 인해 AI 사용료를 지금보다 100대 이상 더 부과할 수 있는 상황이 올 수 있다"고 언급했다.
이런 예측은 현재 AI 산업이 당면한 과도기적 문제를 상징적으로 나타낸다. 최근 2~3년 사이 생성형AI 기술을 중심으로 AI 산업이 큰 주목을 받았지만, 구조적 한계로 인해 '고성능=고비용'이란 공식이 널리 알려진 상황이다. 이 때문에 AI 투자 비용 대비 사업성 및 도입 효용에 대한 각계의 의문이 커지고 있으며, 현재 AI 시장은 이미 신기술에 회의감을 품는 일명 '환멸의골짜기(가트너 하이프사이클)'에 이르렀다고 평가되고 있다. 또한 나스닥을 이끌던 구글, 엔비디아, 메타 등 주요 AI 기업들의 주가도 하락세에 접어들며 'AI 거품론'까지 제기되고 있다.
핵심과제는 신뢰성과 실용성 확보
신기술이 출현-부풀려진 기대감-환멸-계몽-안정 단계를 거치는 하이프사이클은 이상한 일이 아니다. 관건은 대중의 비관론이 커지는 환멸 단계를 어떻게 극복하는지다. 배 원장은 특히 산업계를 중심으로 '신뢰할 수 있는 AI'와 '실용적인 AI'를 만드는 것의 중요성을 거듭 강조했다.
먼저 신뢰할 수 있는 AI는 학습 데이터에 근거한다. 배 원장은 "트랜스포머-디코더 구조의 맹점은 내가 하는 질문에 무조건 답을 만들어야 하므로, 그럴싸한 답변을 내놓는 환각 현상을 막을 수 없다는 점"이라며 "이를 잘 필터링하려면 양질의 데이터를 활용하는 것"이라고 말했다. 다만 좋은 데이터는 활용하기 어렵도록 철저히 보호된 경우가 많고, 구매에도 많은 절차와 시간이 걸리기도 하는 점은 문제로 지적된다.
또한 인터넷상에서 개방형으로 접근 가능한 모든 데이터를 수집하더라도 신뢰성 높은 AI를 만들려면 철저한 정제 과정을 거쳐야 한다. 배 원장은 "웹상의 모든 데이터를 다 모아도 30조개 이상은 될 것 같지 않다"면서 "엑사원도 20조개의 데이터 토큰을 모았지만 그 안에서 계속해서 저작권 이슈나 개인정보 문제 등을 회피하고 정제하는 과정에 많은 시간을 들려 8조개의 토큰으로 줄이는 데 성공했다"며 "그 결과 15조개의 토큰을 활용한 메타의 모델 대비 뒤지지 않는 성능을 구현해 낼 수 있었다"고 설명했다.
좋은 데이터를 수집, 정제하는 과정 이후에 따르는 문제는 실용성이다. 여기엔 성능은 물론이고, 비용절감 문제가 핵심이 된다. 배 원장은 "LG 계열사들도 엑사원의 성능만 보지 않고, 실제 내부에서 모델을 쓰고 운영할 때 비용이 효과적인지 살핀다. 그만큼 추론 속도를 더 높이면서도 비용 효율적으로 만드는 일에 집중했으며, 그 결과 좋은 성과를 얻어 엑사원 3.0 공개 이후 다양한 기업으로부터 연락을 받았다"고 말했다.
특히 비용절감은 AI 모델이 사용하는 데이터 수는 줄이면서 성능은 유지하는 최적화와 직결된다. 앞서 엑사원이 메타 모델 대비 절반 이하의 토큰을 사용하면서 비슷한 성능을 낸 엑사원 3.0을 개발한 것도 이에 해당한다. 배 원장도 "몇 년 전만 해도 거대지능을 만들어 LG 각 계열사의 모든 데이터를 학습하면 하나의 모델로 모든 문제를 풀 수 있으리라 생각했지만 큰 오산이었다"며 "그런 지능이 있어도 실제로는 운영비가 어마어마해서 아무도 안 쓸 것"이라고 설명했다.
따라서 현업에서 안정적인 활용까지 이뤄지려면 사용처별로 특화된 '전문가 AI'를 지향해야 한다는 것이 배 원장의 생각이다. 이 때문에 엑사원도 현재 챗GPT와 유사한 형태의 '챗엑사원'을 LG 계열사 내부 직무별로 각 사용자에게 최적의 답을 줄 수 있는 개인화 서비스로 운영되고 있다. 또한 배터리, 디스플레이 등 여러 계열사의 방대한 데이터까지 모두 학습하기 어려운 만큼, 그들의 데이터를 검색증강생성(RAG) 형태로 후처리해 질의응답이 가능하도록 보완하고 있다. 현재 12개 계열사에서 오픈베타 형태로 서비스 중이며 좋은 성과가 나오면 추후 외부에도 오픈할 계획이라고 한다.
배 원장은 "AI 투자는 지금도 위기론이 제기되지만 빅테크는 AI 투자를 절대로 주저하지 않을 것이다. 우리도 AI 투자를 지속할 수 있도록 많은 관심을 가져달라"면서 "글로벌 빅테크들의 투자 규모와 비교하면 한국 기업들은 크게 열세다. 그만큼 우리가 가진 제조, 금융, K-컬처 등에서 보다 특화된 AI 모델을 만들고 실효성을 증명하는 것이 가장 중요한 과제가 될 것"이라고 강조했다.
한편 이날 행사를 주최한 국민의힘 이인선 의원(국회AI포럼 대표의원), 더불어민주당 조승래 의원(국회AI포럼 연구책임)도 지속적인 AI 연구와 빠른 입법 지원의 의지를 밝혔다.
이 의원은 "국회연구단체는 보통 창립 후 분기별로 세미나를 하는 등 천천히 움직이는 반면, 우리는 매달 초청강연을 개최하며 열심히 달리고 있다. 앞으로도 쉬지 않고 고민하며 AI를 살펴볼 생각"이라며 "오늘과 같은 토론이 제22대 국회에서도 여러 AI 관련법들이 무난히 잘 통과될 수 있도록 힘을 더해줄 것으로 기대한다"고 말했다. 조 의원도 "어떤 이슈를 접할 땐 항상 크게 한번 보고, 깊이 들어가서 구체적으로 보고, 다시 올라가서 크게 보는 과정들을 반복해야 한다"며 "AI에 대한 이해 또한 다르지 않을 것"이라고 말했다.
IP캠 취약점 알아내기 쉽다…'자급자족' 스캔도구 만드는 해커들
2024-11-15 08:57:33토스, 올해 3분기 매출 5021억 원…분기 최대 실적 기록
2024-11-15 08:55:39삼성전자 노사, 임협 5.1% 인상·패밀리넷 200만 포인트 합의
2024-11-14 19:53:31SK C&C, 3분기 매출 5835억원…전년비 12.1%↑
2024-11-14 18:06:27