일반

"환각 그만..." LLM 신뢰성, 실전에선 이렇게 평가한다 [real! AI Pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 요즘 인공지능(AI)에 관심이 있는 독자들에게 LLM(대형언어모델)은 이제 더이상 낯선 개념이 아닐 겁니다. 그동안 챗GPT, 제미나이, 클로드, 뤼튼, 라이너 등 유용한 AI 서비스들이 널리 사용되면서 그 기반인 LLM에 대한 관심도 덩달아 높아졌기 때문입니다. 하지만 LLM 기반 AI 서비스가 지금보다 더욱 상용화되려면 몇 가지 단점이 반드시 보완되어야 한다는 지적이 따릅니다. 특히 그동안 LLM의 경우 '환각(hallucination)' 현상에 대한 극복이 중요한 과제로 대두되어 왔지요.

[ⓒ AI 생성 이미지]
[ⓒ AI 생성 이미지]

환각은 AI가 '틀린 사실을 진실인 것처럼 말하는 현상'을 말합니다. 현재 LLM 기반 AI 서비스들의 강점은 방대한 학습 데이터를 바탕으로, 사람보다 빠르게 질문의 답을 생성하는 능력인데요. 여기에 환각 발생 가능성이 있다면? 소위 '함정카드'가 숨어 있는 격입니다. 혹은 정답이긴 하지만 사용자의 필요 대비 품질이 낮은, 전문성이 결여된 답변이 제시될 수도 있습니다.

이는 현시점에 우리가 AI를 온전하게 신뢰할 수 없도록 만드는 한계입니다. 반면 지금 AI 산업은 방대한 영역, 크고 작은 문제에서 인간을 도울 수 있는 'AI 에이전트(Agent)'로의 진화를 지향하고 있습니다. 따라서 다음 AI 에이전트 사회로 나아가려면 고질병인 환각과 저품질 답변 문제는 지금부터 반드시 해결하고 넘어가야 할 문제로 꼽힙니다.

이런 배경 아래 'AI 신뢰성 검증'의 중요성과 방법론에 대한 관심 또한 AI 적용 분야를 막론하고 높아지는 추세인데요. 이번 이야기에서는 셀렉트스타의 김세엽 대표가 지난 편에 이어 'AI 신뢰성 검증은 구체적으로 어떻게 이뤄지는가?'를 주제로 한층 실무적인 노하우를 전해드립니다.

■ AI 신뢰성 평가 질문의 선택지가 '단 2개'인 이유

안녕하세요, 김세엽입니다. AI 신뢰성 평가 방법론에서 가장 중요한 건? 당연하지만 '평가 기준'입니다. 하지만 그 기준을 얼마나 AI의 특징과 도메인(Domain, 분야)에 걸맞게 설정하는가, 또한 평가 중 인간의 편향을 얼마나 효과적으로 제거할 수 있는지는 그리 쉽지 않은 문제입니다. 따라서 신뢰성 평가 시스템을 갖추려면 우선 평가 대상 AI가 포함된 도메인, 그리고 AI가 마주할 무수한 시나리오를 상정한 질문과 상황에 대한 통합 또는 전문화 데이터셋이 필요합니다.

사실 이런 평가 데이터셋을 구축하는 일도 쉽지 않지만, 평가 수행 방식도 신중히 선택해야 합니다. AI를 평가하는 도구지만 아직은 결국 사람이 만드는 도구이기에, 평가에 어떤 주관도 담기지 않도록 만들어야 그 가치를 인정받을 수 있기 때문입니다.

이전에는 특정 질문에 1부터 5까지 점수를 매겨 평가하는 '리커트 척도(Likert scale)' 방식이 주로 사용됐습니다. 이는 대부분 심리평가에서 널리 경험해 본 방식일 겁니다. 하지만 이 방식은 '중립' 점수의 존재, 점수별 경계의 모호함 등으로 객관성을 담보하기 어렵습니다.

따라서 셀렉트스타의 경우 '바이너리(Binary)' 평가를 활용하는데요. 이는 한 개의 질문을 세분화 기준에 따라 평가하게 됩니다. 각 세분화 기준은 T(True, 진실) 혹은 F(False, 가짜)만 고를 수 있도록 함으로써 모호한 선택을 최소화합니다. 다만 이 방식은 복잡한 질문에 대응하기 어려울 수 있는데요. 저희는 각 질문의 평가를 위한 대기준을 세우고 세분화 기준으로 나눠, 각 기준별 중요도에 따라 가중치를 주는 방식으로 단점을 보완하고 있습니다.

평가 기준 세분화, 가중치 등을 적용한 바이너리 평가 방법 예제 [ⓒ 셀렉트스타]
평가 기준 세분화, 가중치 등을 적용한 바이너리 평가 방법 예제 [ⓒ 셀렉트스타]

AI가 학습한 '사회적 가치'는 무슨 기준으로 검증하지?

이런 기준과 접근 방식을 공통점으로, 다양한 평가 도구를 만들 수 있습니다. 그중에서 하나 재미있는 사례를 소개하자면 셀렉트스타가 지난 4월 공개한 국내 최초의 한국형 LLM 신뢰성 평가 데이터셋인 '코낫(KorNAT)'을 들 수 있는데요. 코낫의 특징은 기존처럼 LLM의 환각 정도를 넘어, 한국의 '사회적 가치관'과 '기본 지식' 수준까지 검증할 수 있도록 만들어졌던 점입니다.

사회적 가치관, 문화와 같은 건 정량화가 어려운 요소인데 어떻게 평가할 수 있었을까요? 이 역시 평가 기준의 세분화, 도메인 최적화가 바탕이 됩니다. 일단 크게 ▲무해성 ▲정보 정확성 ▲사회적 가치 ▲도움 적정성이란 4개의 글로벌 공통 지표를 기준으로 설명해드리겠습니다.

먼저 '무해성'은 LLM이 편견, 혐오, 민감성, 불법과 같은 주제에서 얼마나 적절한 답변을 선택하는지 확인하는 객관식 평가가 수행됩니다. 특히 사회·문화적 시의적절성 평가를 위해 최근 1년간 화제가 된 사건을 활용해 LLM이 민감한 주제에 어떻게 반응하는지 평가합니다.

'정보 정확성'은 LLM이 상용화되려면 최소한 한국인들의 기본적 수준에 부합하는 지식이 있어야 한다는 전제로 진행되는 평가입니다. 이를 위해 국내 초중고 교과 과정 범위에 해당하는 상식을 묻는 질문을 중심으로, 정확한 정보를 갖고 답변하는지 평가하죠.

'도움 적정성'은 사용자의 의도에 맞춘 도움을 줄 수 있는지 평가하는 지표입니다. 이때 하나의 방법은 사용자의 질문과 관련이 있으면서도 구체적인 정보를 AI가 되물어야 하는 '명확화' 테스트입니다. 더불어 불가능한 것, 즉 '넌센스(Nonsense)' 질문을 던지고 LLM의 대응을 평가하는 방법으로 LLM이 사용자의 질문을 얼마나 잘 이해하며, 필요한 정보를 제공할 수 있는지 평가합니다.

'사회적 가치'는 가장 주관적일 수 있는 항목입니다. 정답이 정해진 기존 신뢰성 벤치마크에서 다루지 않던 영역이기도 하죠. 따라서 이를 평가하려면 특히 더 구체적인 사전조사 데이터셋을 필요했는데요. 이에 셀렉트스타는 약 6200명 규모의 설문조사를 실시했고, 찬반이 갈릴 수 있는 여러 주제를 두고 '매우 동의~매우 비동의'까지 답변을 확보한 뒤 분포 값을 점수로 활용하는 방안을 택했습니다. 이는 사회적 가치를 평가하려면 결국 사회적 인식에 대한 조사가 반드시 선행되어야 함을 나타내는 대목이죠.

소버린 AI도 엄격한 평가 기준이 필요하다

또한 이 같은 LLM 신뢰성 평가 방법론과 사례는 국가별 역사, 문화, 사회적 지식 학습에 특화된 '소버린 AI' 개념이 대두되는 요즘 트렌드 발맞춰, 더욱 가치가 높아질 것으로 기대하고 있습니다.

실제로 소버린 AI의 신뢰성 평가는 단순 성능보다 각국의 상황과 특수성을 AI 모델이 얼마나 잘 이해하고 답변할 수 있는가를 볼 수밖에 없습니다. 이때 적절한 평가 데이터셋을 구축하려면 첫째, 해당 국가의 정치와 사회문화적 맥락을 깊이 이해하는 학자, 연구자, 언론인 등을 포함한 전문가팀과의 협업이 중요합니다. 이들을 통해 기본적으로 어떤 사회적 규범과 감수성을 AI 모델이 반영해야 하는지 파악하는 거죠. 이어 실제로 현지 데이터를 수집하고 분석해야 합니다. 기사, 방송, 소셜미디어 등이 그 주요 출처가 될 수 있죠.

또한 반복해서 강조하지만 평가 기준은 대단히 중요합니다. 소버린 AI 평가를 고려하면 평가 기준도 해당 국가에 최적화해야 합니다. 기존의 범용적 평가 기준을 바탕으로 하되, 대상 국가의 특수성을 반영한 중요 평가 지표를 선정하거나, 필요하다면 추가로 발굴하는 노력 등을 말합니다.

LLM 신뢰성 제고를 위한 공동의 협력 '레드팀 챌린지'

이밖에 LLM 신뢰성 제고를 위한 업계의 노력 중에는 '레드팀(Red-Team)'도 빼놓을 수 없습니다. 레드팀은 가상의 '적군' 입장에서 목표한 AI 모델의 잠재적 취약성과 편향성을 테스트하는 프로세스를 말합니다. 비유하면 소프트웨어의 취약점을 찾아 보완하는 화이트 해커와 유사한 개념이죠.

2024 레드팀 챌린지 현장 참가자들 [ⓒ 셀렉트스타]
2024 레드팀 챌린지 현장 참가자들 [ⓒ 셀렉트스타]

특히 국내에서는 지난 3월 과학기술정보통신부와 한국정보통신기술협회(TTA)가 개최한 '레드팀 챌린지'가 기억에 남습니다. 해당 행사는 네이버, SK텔레콤, 업스테이지, 포티투마루 등 국내에서 내로라하는 LLM 기술 보유회사들의 모델을 공격해보는 대회로 업계의 눈길을 끌었는데요.

올해 레드팀 챌린지는 우선 공격을 시도한 뒤, 성공하면 본인이 사용한 기법이나 취약점이 확인된 카테고리를 선택해 제출하는 방식이었습니다. 카테고리는 각각 ▲탈옥(제한된 권한 외 획득) ▲편견 및 차별 ▲인권 침해 ▲사이버 공격 ▲불법 콘텐츠 ▲잘못된 정보 ▲일관성 등 7개였는데요. '환각'에 대한 우려가 컸던 만큼 실제로 제출된 데이터를 보니 '잘못된 정보'에 대한 항목이 전체의 42%로 압도적 비중을 차지했습니다. 이어 편견 및 차별(14%), 불법 콘텐츠(12%)가 각각 2위와 3위를 이었고 나머지 항목은 7~8%의 비슷한 수준을 나타냈습니다.

2024 레드팀 챌린지 결과 [ⓒ 셀렉트스타]
2024 레드팀 챌린지 결과 [ⓒ 셀렉트스타]

셀렉트스타는 이 대회에서 운영 파트너로서 행사 기획, 플랫폼 구축, 결과 데이터 분석 등을 맡았습니다. 결과적으로 대회 규모도 상당했는데요. 전체 공격 대화셋이 2만건에 달했으며 20대 청년부터 60대 컴퓨터공학과 교수님까지 폭넓은 참여가 이뤄진 모두의 행사였습니다. 또한 이 가운데 공정하고 전문적인 평가를 위해 별도의 '챌린지 평가단'도 운영했습니다. 레드팀 수행 경험 등이 있는 데이터 분야 전문가, 의료·금융·법률 전문가 등 120여명 규모에 달했죠.

평가 지표의 표준화, 신뢰성 교육의 중요성

이처럼 '신뢰할 수 있는 AI 사회' 구축을 위한 신뢰성 검증 대상에 포함될 영역은 점차 확장되어 갈 것입니다. 제가 예상하는 주요 영역으론 ▲의료 ▲금융 ▲법률 ▲교육 ▲공공 서비스 등이 있는데요. 모두 알다시피 의료 분야는 진단의 정확도와 환자 데이터 보호가 중요하며, 금융 분야도 예측의 정확성과 사기 탐지 효율성 검증이 중요합니다. 또한 법률 분야는 판결 지원의 공정성과 법적 해석의 정확성을, 교육 분야는 학습 성과와 평가의 공정성을 검증하고 공공 서비스 분야는 행정의 신뢰성과 시민 데이터 보호 등을 수행하는 것이 중요할 것입니다.

다만 이들에 대한 믿을 수 있는 신뢰성 평가 도구 개발을 위해선 기술적, 사회적으로도 지속적인 준비도 필요합니다. 먼저 계속 강조하듯 고품질 데이터 확보가 중요하며 무엇보다 글로벌 학계와 협력해 '표준화된 평가 지표'를 개발하는 것이 필요합니다. 더불어 실시간 모니터링 시스템으로 AI를 지속해서 평가하고 피드백이 반영되도록 만드는 것도 필수적 과제입니다.

끝으로 사회적 준비 방안으로는 'AI 신뢰성에 대한 교육'이 중요합니다. AI가 갈수록 사회 전반은 물론, 개인의 일상에도 깊이 관여할 텐데 무작정 AI를 믿고 따르는 것이 능사는 아닙니다. AI의 도움을 200% 누리기 위해선 당연히 내가 사용하는 AI가 얼마나 신뢰할 수 있는 상태인지 분별하는 능력과 인식을 갖는 것이 중요하기 때문입니다.

나아가 이 같은 인식 제고를 위해서는 각계의 노력과 법적 규제 프레임워크 구축, 다양한 이해관계자 간 협력 강화도 필수일 텐데요. 정부 또한 관련 법률 규정 마련과 더불어 학계, 산업계, 시민단체 등이 함께 참여하는 협의체를 구성해 지속적인 협력과 논의를 이어가야 할 것입니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널