e비즈*솔루션

[인터뷰] “금융에 최적화된 AI모델 골라드립니다”…LG CNS AI센터가 개발한 ‘야심작’

권하영 기자
LG CNS AI센터 어드밴스드젠AI랩 소속 (왼쪽부터)황윤구 팀장, 이민형 선임, 강민수 선임이 인터뷰를 진행하고 있는 모습. [Ⓒ 디지털데일리]
LG CNS AI센터 어드밴스드젠AI랩 소속 (왼쪽부터)황윤구 팀장, 이민형 선임, 강민수 선임이 인터뷰를 진행하고 있는 모습. [Ⓒ 디지털데일리]

[디지털데일리 권하영기자] 생성형 인공지능(AI) 도입을 고민하는 금융사들의 첫 번째 관문은 ‘어떤 AI 모델을 쓸 것인가’다. 끊임 없이 쏟아지는 대규모언어모델(LLM)들 중 금융 서비스에 가장 적합한 모델을 골라내는 것부터가 쉽지 않은 일이기 때문이다.

LG CNS가 최근 개발한 ‘금융 맞춤형 AI 평가도구’는 이러한 금융사들의 페인포인트를 정확히 겨냥한 솔루션이다. 이 평가도구는 LG CNS가 자체 구축한 금융 특화 데이터셋을 기반으로, 현재 공개된 수십개의 개방형 LLM을 분석하고 평가한다. 이를 토대로 뱅킹·보험·증권 등 어떤 금융 서비스든 가장 적합한 AI 모델을 찾아주는 것이다.

일반적으로 허깅페이스 ‘오픈 LLM 리더보드’와 같이 AI 모델의 벤치마크 점수를 공개하는 플랫폼들이 있긴 하지만, 이는 범용적인 성능 지표를 보여줄 뿐 특별히 금융 분야에 최적화된 능력치를 확인해주진 않는다. 그런 점에서 LG CNS가 개발한 이 솔루션은 시중에 공개된 첫 금융 특화 평가도구로서 의의를 가진다고 할 수 있다.

<디지털데일리>는 이러한 ‘금융 맞춤형 AI 평가도구’를 개발한 LG CNS AI센터 어드밴스드젠AI랩(Advanced GenAI Lab) 소속 황윤구 팀장, 이민형 선임, 강민수 선임을 최근 서울 강서구 마곡동에서 만나 이야기를 나눴다. AX(AI전환) 전문기업으로의 도약을 위해 LG CNS가 지난해 신설한 AI 센터는 200여명의 AI 전문가 인력이 투입돼 있으며, 그 중 어드밴스드젠AI랩은 AI 분야 선행 기술을 연구하고 제품화를 고민하는 곳이다.

황윤구 팀장은 “금융사들이 생성형 AI에 대한 관심은 많지만, 아직도 온프레미스 환경이 많은 데다 망분리 규제와 보안 이슈로 인해 AI 모델을 활용하기 쉽지 않다”며 “결국 오픈소스 LLM을 파인튜닝(미세조정)해 본인들만의 LLM을 자체 구축해야 하는데, 이 과정에서 금융 특화 평가도구에 대한 니즈가 커지고 있다”고 소개했다.

그는 “일반적인 한국어 리더보드들은 말 그대로 한국어를 테스트하는 것이라, AI 모델에 금융 용어로 질문했을 때 맥락상 이상하게 답변하는 문제를 가려낼 수 없다”며 또한 같은 금융사 내에서도 어떤 조직은 예를 들어 이미지 생성이 필요 없는 서비스를 만드는데, 일반 리더보드들은 이런 필요 없는 태스크들까지 포함해 일괄적으로 점수를 내기 때문에 니즈를 정확히 파악하기 어렵다“고 지적했다.

이에 LG CNS는 총 29개 평가지표와 약 1200개 데이터셋으로 구성된 금융 특화 평가도구를 통해, ▲금융지식 기반의 추론 능력 ▲수학적 추론 능력 ▲복잡한 질문에 대한 이해력 ▲문서요약 능력 ▲금융 용어 이해도 ▲AI에이전트(Agentic Tool) 사용 능력 등을 종합적으로 테스트하고 있다. 평가지표에는 특히 AI가 답변하기 어려워하는 금융 관련 추론 문제들을 적용해 성능 검증의 완성도를 높였다는 설명이다.

물론 이 과정은 결코 쉽지 않았다. 방대한 여러 데이터들 중에서도 금융 분야에 특화된 데이터셋을 확보하는 것 자체가 도전과제였기 때문이다. LG CNS는 금융권 IT 프로젝트를 다수 수행하며 쌓아온 경험치에 더해, 실제 금융 현장의 전문가들과 적극적으로 소통하며 연구한 결과를 이 데이터셋에 녹여냈다.

이민형 선임은 “지금까지 정확히 금융을 타깃으로 한 리더보드가 없었기 때문에 참고할 사례가 많지 않았다”며 “자체적으로 여러 과제를 수행하며 쌓아온 LLM 관련 태스크들을 수집하려 노력했고, 이를 기반으로 금융 전문가들과 함께 실제 현업에서 실효성이 있는지 검증해가며 에셋을 만들었다”고 강조했다.

데이터셋의 평가 데이터는 모델 평가에 있어 일종의 기출문제인 만큼 철저히 비공개지만, 핵심은 AI 모델이 금융 지식을 얼마나 잘 이해하고 응용하는지 보는 것이다.

강민수 선임은 “테스트는 특정 지문을 가지고 질문을 했을 때 AI의 답변을 보는 것인데, 크게 ‘답변 일치도’ ‘내용 일치도’ ‘지시 수행도’를 측정해 최종 평가 점수를 낸다”며 “예를 들어 지문에서 특정 금융 용어를 직접적으로 표현하지 않고 문맥적으로 녹여 설명했을 때 AI가 숨겨진 개념을 이해하고 질문에 대한 답변을 할 수 있는지, 질문과 상관 없는 내용이 지문에 포함돼 있을 때 AI가 알아서 잘 걸러내고 추론하는지 등 상당히 심층적으로 파악하고 있다”고 설명했다.

이러한 금융 맞춤형 AI 평가도구는 상시 업데이트된다. 황 팀장은 “총 29개 평가지표만으로 모든 것에 대응할 수 없을뿐더러 앞으로 기술이나 고객 니즈가 계속 변화해나갈 것인 만큼 지속적으로 업데이트 돼야 의미가 있다”고 언급했다.

LG CNS는 이 평가도구를 통해 금융기업들이 AI를 도입할 때 최적의 LLM 선정부터 커스터마이징, 안정적인 운영까지 금융권에 특화된 생성형 AI 도입 전반 단계에서 차별화된 고객가치를 제공하겠다는 구상이다.

추후에는 공공과 제조 등 분야로도 특화 평가도구를 개발할 수 있다. 황 팀장은 “공공 문서 특유의 자료 양식과 같은 것들을 일반적인 챗GPT가 잘 파악하지 못하는 이슈가 있어서 금융과 비슷한 니즈들이 있고, 제조 분야에서도 예를 들어 국책 사업으로 진행된다면 모든 데이터가 내부에서 다뤄져야 한다”며 “금융 평가도구를 계속 고도화할지 동시에 공공이나 제조 쪽으로도 개발해나갈지는 논의 단계”라고 말했다.

황 팀장은 “최근 딥시크가 화두가 된 것처럼 어떤 LLM이 나왔을 때 객관적인 지표가 나와야 하는데 그 지표가 계속 비어 있는 게 요즘 AI 사업들의 공통점”이라며 “금융사들도 내부적으로 분석은 하겠지만 시간도 오래 걸리고 표준이 없는 상황이기 때문에, LG CNS의 평가도구를 통해 아무에게도 공개되지 않은 데이터셋으로 객관성이 보장되는 평가를 통해 활용 여부를 판단할 수 있을 것”이라 전했다.

권하영 기자
kwonhy@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널