일반

'왜? 어떻게?'가 없다면 AI 에이전트가 아닙니다 [real! AI pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 요즘 'AI 에이전트(Agent, 대리인)' 시대가 멀지 않았다는 전세계 인공지능(AI) 전문가들의 전망이 나옵니다. AI 에이전트란 대관절 무엇일까요? 우선 영화 아이언맨의 만능AI비서 '자비스'와 영화 'Her'의 여자친구 같은 AI '사만다'를 떠올려 보세요. 단순히 사용자가 시킨 일뿐만 아니라, 내 일상과 업무 전반을 보조하고, 인격적 교감까지 가능한 AI가 되어야 진정한 의미의 에이전트, 대리인이라 부를 수 있을 것 같습니다.

인격적인 AI 비서와 사랑에 빠진 스토리를 담은 영화 ‘Her’의 한 장면. [ⓒ 워너브라더스 유튜브]
인격적인 AI 비서와 사랑에 빠진 스토리를 담은 영화 ‘Her’의 한 장면. [ⓒ 워너브라더스 유튜브]

무엇보다 요즘처럼 대화가 잘 통하는 대형언어모델(LLM) 기반 서비스(챗GPT 등)들을 보면 이런 세상이 곧 현실이 될 것이란 기대가 어느 때보다 커집니다. 하지만 챗GPT는 아직 에이전트라 부르기에 부족한 점이 많습니다. 시킨 일만 잘하니까요. 할 수 있는 일도 여전히 제약이 많습니다. 세상엔 말로만 때울 수 없는 일도 많으니까요. 그런데 전문가들은 어떤 근거로 AI 에이전트 시대가 목전에 이르렀다고 예측하는 걸까요? 나아가 진정한 의미의 AI 에이전트 구축에 필요한 기술 요소와 과제는 무엇일까요?

이번 주제는 LLMops(대형언어모델 운영) 전문가인 베슬AI의 전지환 최고기술책임자(CTO)가 명쾌한 답을 내려드립니다. 카이스트에서 컴퓨터공학을 전공한 전 CTO는 구글에서 사이트 신뢰성 엔지니어(SRE)로 근무한 이력이 있습니다. 또한 데브시스터즈, 펍지(PUBG)에선 AWS 기반 대규모 서버 인프라 운영 및 데이터 분석 플랫폼을 구축해 본 데브옵스(DevOps) 전문가로 꼽힙니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

인간에게 있고, 아직 AI는 부족한 것

안녕하세요, 전지환입니다. AI 에이전트의 정의부터 명확히 두고 이야기를 시작해볼까요? AI 에이전트란 '스스로 판단을 내리고 역할을 수행할 수 있는 AI'입니다. 여기서 판단과 역할 수행이란 키워드에 집중하세요. 둘 모두 스스로 움직이며 부가가치를 만들어내는 '능동성'을 띄고 있다는 점을 알 수 있습니다. 아무리 말을 잘해도 지금의 챗GPT처럼 주어진 질문과 데이터에 대해서만 동작하는 '수동적 AI'는 완전한 의미의 AI 에이전트로 볼 수 없는 이유입니다.

조금 더 구체적으로 주목할 키워드는 '추론(Resoning)''기획(Planning)'입니다. 스스로 판단하고 역할을 수행하는 AI 구현에 꼭 필요한 키워드이자, 현시점 AI 모델이 넘어야 할 또 하나의 높은 벽이기도 합니다. 하지만 이 벽만 잘 넘으면 우리는 자비스나 사만다를 그만큼 더 빠르게 만날 확률 또한 높아진다고 말씀드릴 수 있죠.

먼저 추론은 AI가 '왜?'를 이해하고, 논리적으로 설명할 수 있는 능력입니다. 인간이 어떤 사물을 이해하고 질문에 결론을 내릴 때 항상 “왜?”를 생각하듯, AI 에이전트도 데이터와 질문에 귀납적, 혹은 연역적 접근 방식으로 결론을 도출하는 과정이 곧 추론이 됩니다. 물론 지금도 LLM은 일부 추론을 하고 있지만, 그 수준이 높지는 않습니다. 수학적 증명이나 법률적 판단 등 문제가 복잡해질수록 추론의 결과물이 신통치 못하죠. 이 경우 AI를 복잡한 연구나 난제 해결에 활용하기 어렵고, 일상에서의 활용성도 크게 제한될 수밖에 없습니다.

[ⓒ AI 생성 이미지]
[ⓒ AI 생성 이미지]

다음으로 기획은 '설정한 목표를 달성하기 위한 최적의 경로와 순서 설계 능력'을 말합니다. 추론이 왜?를 고민한다면, 기획은 “어떻게?”를 계획하는 능력인 셈이죠. 여기에는 에이전트가 어떤 행동을 해야 적합할지 판단하고 우선순위를 설정하는 능력이 포함됩니다. 나아가 기획 능력을 갖춘 AI는 단순한 명령 수행을 넘어 스스로 목표 달성에 필요한 전략 수립도 가능하므로, 결과적으로 고수준의 '추론'으로 문제를 도출하고, '기획'으로 해결법을 찾아 수행하는 능력은 진정한 의미의 AI 에이전트를 말할 때 절대로 빼놓을 수 없는 키워드가 되는 것입니다.

'말하는 척'의 달인…깜빡 속기 참 좋죠?

또한 요즘 LLM 기반 AI의 답변 품질은 사람도 구별하기 어려울 만큼 정교합니다. 그 때문에 많은 사람이 이미 AI는 사람처럼 사고할 수 있다고 오해하죠. 하지만 여기에 큰 함정이 있습니다. 지금의 LLM이 내놓는 답변은 근본적으로 '다음에 붙으면 가장 자연스러울 말'을 정확하게 찾아 이어 붙이는 구조로 만들어집니다.

극단적으로, 챗GPT는 겉보기에 사람처럼 말하지만 실제론 자신이 무슨 의미로 문장을 만들어 냈는지 전혀 이해하지 못하고 있다는 이야기입니다. AI 입장에선 '이렇게 단어와 문장을 완성하면 사람이 좋아한다' 정도만 목표로 주어져 있고, 그것을 최대한 높은 점수로 수행하기 위해 데이터와 알고리즘을 활용할 뿐이란 것입니다. 이것도 역시 지금의 AI가 아직 온전한 의미의 에이전트는 될 수 없는 또다른 이유입니다.

하지만 비판만 하려는 것이 아닙니다. 저는 여러 한계에도 불구하고 인간의 추론이나 기획 능력을 '모방'하는 현재의 방식에서도 진짜 AI 에이전트 구현을 위한 진보가 일어날 여지는 많다고 생각합니다.

특히 최근 오픈AI가 출시한 '오픈AI 오원(o1)'이나 AI 검색 서비스 퍼플렉시티 프로 버전의 검색 결과물을 보면, 같은 질문에도 기존 모델보다 체계적으로 추론하고 기획하는 능력이 확인됩니다. 실제로 제가 본 글의 초고 일부를 o1에 피드백 요청했을 때, AI는 제가 무엇을 원하는지 이해하고, 어떤 방법으로 답변해야 할지 차근차근 논리를 전개해 답변하는 모습을 보여줬습니다.

오픈AI o1에게 피드백 요청 후, o1이 추론을 진행한 과정의 일부 [ⓒ 챗GPT 갈무리]
오픈AI o1에게 피드백 요청 후, o1이 추론을 진행한 과정의 일부 [ⓒ 챗GPT 갈무리]

이렇게 LLM이 인간의 추론과 기획 능력을 모방하게 하는 기법으론 CoT(Chain of Thought, 생각의 사슬)와 ReAct(Reasoning and Acting, 추론과 행동)를 꼽을 수 있습니다. CoT는 복잡한 문제가 제시되면 단계별로 차근차근 생각을 전개해 나가는 방식이고, ReAct는 추론과 행동을 결합함으로써 실제 문제의 해결까지 AI가 능동적으로 참여하도록 만듭니다. 비록 이런 방식이 여전히 인간의 사고방식과 100% 동일하진 않지만, 이전보다 복잡한 작업 수행을 가능하게 하고 더 나은 AI 에이전트 개발로 나아가는 데 중요한 발판이 된 건 사실입니다.

진정한 AI 에이전트 구현을 위한 3가지 숙제

궁극적으로 사람 수준의 추론과 기획이 가능한 AI 에이전트를 개발하려면 크게 3가지 이슈에 집중해야 합니다. 첫째는 AI가 문제의 인과관계를 깊이 이해할 수 있도록 수학, 논리, 연역 등 추상적 개념을 이해하고 논리적인 결론을 도출할 수 있는 능력이 향상되어야 합니다.

둘째는 '상호작용 인터페이스'입니다. 지금의 대화 기반 인터페이스도 충분히 강력하지만, 나아가 우리가 쓰는 웹브라우저, 각종 문서 프로그램, 하드웨어 등과도 상호작용이 가능해야 사용자를 다방면으로 지원할 수 있으니까요. 특히 주어진 문제 상황에서 AI 에이전트가 직접 가장 적합한 해결 도구를 선택할 수 있는 능력 또한 중요할 것입니다.

셋째는 '안전'입니다. 현재 환각(Hallucination)으로 대표되는 LLM의 한계는 잘못된 대답을 넘어, 위험한 답변을 내놓는 한계가 있습니다. 이를 해결하려면 AI 에이전트의 출력 내용이 자동으로 검증되고, 부적절한 응답은 필터링하여 인간사회의 윤리적 기준과 규제를 철저히 따를 수 있는 예방적 설계와 모니터링 체계 구축이 필수입니다.

이런 문제가 해결된 뒤 달라질 미래의 모습은 어떨까요? 가히 '상상 이상의 무궁무진함'일 겁니다. 사실 불과 2년 전만 해도 AI로 사람 수준의 코딩이나 글쓰기가 가능할 것이라 예상한 이는 많지 않았습니다. 그런데 지금은 전문가에 필적한 글쓰기, 논문 첨삭, 코딩이 가능해지고 있죠. 실제로 세계적인 벤처캐피탈 안드리센호로위츠(a16z)에 따르면 우리가 '인간 수준의 지능'이 필요하다고 여겼던 일들도 LLM 기반 인공지능의 등장 이후 빠르게 정복되고 있는 실정입니다.

AI 자동화 가능성에 대한 a16z의 예측, 왼쪽의 간단한 작업(ex: 데이터 입력 및 추출)들은 이미 AI로 대체 가능하고 오른쪽의 복잡하고 인간의 판단력이 필요한 작업(고객 서비스, 영업 등)들은 추론과 기획을 포함한 인간 수준의 범용 AI 발전이 요구된다. [ⓒ a16z]
AI 자동화 가능성에 대한 a16z의 예측, 왼쪽의 간단한 작업(ex: 데이터 입력 및 추출)들은 이미 AI로 대체 가능하고 오른쪽의 복잡하고 인간의 판단력이 필요한 작업(고객 서비스, 영업 등)들은 추론과 기획을 포함한 인간 수준의 범용 AI 발전이 요구된다. [ⓒ a16z]

앞으로 중요해질 히든 키워드 'LLMops'

이 가운데 많은 사람이 놓치고 있는 히든 키워드로 저는 LLM 기획 및 설계, 운영 전반의 노하우를 의미하는 LLMops(엘엘엠옵스)를 꼽습니다. 사실 모델의 추론과 기획 수준이 아무리 발전해도, 정작 사용자(특히 기업)가 이를 제대로 이해하거나 통제하지 못한다면 온전한 성능을 이끌어내기 어렵습니다. 예컨대 지금도 동일한 LLM을 사용하더라도 명령(프롬프트)을 더 잘 내리는 사람이 AI로부터 더 좋은 결과를 얻는다는 관점이 점차 자연스럽게 인식되고 있습니다.

그런 관점에서 LLMops는 LLM 기반 시스템을 효율적으로 구축, 유지하기 위한 기술과 프로세스 전반을 의미하는 개념입니다. 핵심 요소로는 '지식(Knowledge)', 워크플로우(Workflow)', '평가(Evaluation)'가 포함되는데요. 이는 앞서 AI 에이전트로 나아가기 위한 추론과 기획 단계를 AI보다 앞서 인간이 더 명확히 이해할 수 있어야 한다는 의미가 포함되어 있습니다.

'지식'은 LLM이 참고하여 생성 가능한 데이터를 효과적으로 정제하고 모델에 주입하는 방법에 관한 것입니다. 무엇이 LLM에 필요한 양질의 데이터인지 알지 못하고, 데이터가 있어도 어떻게 주입해야 효과적인지 모른다면? AI는 좋은 모델을 갖고도 구멍이 숭숭 난 데이터로 엉뚱한 추론과 계획을 내놓을 겁니다.

'워크플로우'는 LLM이 명령을 처리하기 전, 생성 과정을 단계별로 분해하고 제어하는 방법에 관한 것입니다. 핵심 모델의 사용 방식과 작업 처리의 흐름을 관리하는 다양한 기법이 포함되는데요. LLM이 더 똑똑한 답변을 내놓도록 구체적인 명령어로 제어하는 '프롬프트 엔지니어링'이 가장 대표적입니다.

'평가'는 완성된 LLM을 정량적으로 평가 및 비교하는 방법을 다룹니다. 현재 많은 LLM이 다양한 결과물을 만들고 있지만 여전히 이를 신뢰할 수 있고 정량적으로 측정 가능한 방법론은 미성숙한 상황입니다. 하지만 누구나 인정할 수 있는 정량적 평가 지표를 만드는 건 향후 개발될 에이전트의 실제 성능 평가, 목표치 설정에도 중요한 기준이 될 것입니다.

보이지 않지만 중요한 '미들웨어'로서의 LLMops

듣고 보면 이게 모두 당연한 이야기 같지만, 의외로 고도의 LLMops 수행에 필요한 이해도와 역량을 가진 AI 도입회사, 제품 개발사는 그리 많지 않습니다. LLMops는 일종의 '미들웨어(Middleware)'에 속하기 때문인데요.

쉽게 말해 가장 밑단의 시스템(개발측)과, 가장 윗단의 서비스(사용측)이 생태계의 대부분을 차지한다면, 미들웨어는 그 사이에서 시스템과 서비스가 가장 효율적으로 연결 및 작동되기 위한 모든 지원을 담당하는 단계입니다. 겉으로 잘 드러나지 않고 다소 모호한 범주인 탓에, 이 영역만 전문으로 하는 기업은 어떤 산업에서도 그리 많지 않은 편입니다.

하지만 인간의 신체도 상체와 하체가 아무리 단단해도 이를 굳건히 연결하는 허리의 건강도 중요하듯이, LLM 역시 허리에 해당하는 미들웨어 영역(지식, 워크플로우, 평가)의 완성도가 전체 AI의 성능과 안전성에 큰 영향을 미칩니다.

이는 또한 LLM 기반 글로벌 AI 산업이 이제 성숙기로 접어들기 시작하면서 저희 베슬AI 같은 LLMops 전문 기업들이 이전보다 큰 주목을 받게 된 이유이기도 한데요. 모델 성능, AI 구축 시스템이 어느정도 상향평준화에 이르면 다음의 경쟁 포인트는 이제 '어떻게 하면 AI 에이전트를 더 쉽게, 가성비 좋게 개발할 수 있을까'로 넘어가기 때문입니다.

저희도 정확히 이 지점을 공략하기 위해 '지식'단의 검색증강생성(RAG) 시스템 구축 중 흔히 발생하는 문서의 체계와 권한 관리 문제를 쉽게 풀 솔루션을 제공하고 있고요. 동시에 복잡한 '워크플로우'를 로우코드(Low code)로 쉽게 구축하고 배포할 수 있는 플랫폼을 최근 개발해 주요 고객사에 도입하며 좋은 호응을 얻고 있습니다.

물론 앞으로 여러 좋은 기업들이 등장해 AI 산업 성숙에 큰 기여를 할 것으로 기대되는데요. 가장 중요한 것은 기술로 구현된 서비스 뿐만 아니라, 그 기술 이면에 대한 깊은 이해와 내재화도 중요하다는 점을 잊지 않는 것입니다.

나아가 저는 AI 에이전트 혁신을 최종적으로 구현할 주체는 결국 AI 전문가가 아닌 각 분야(도메인), 즉 에이전트가 활동할 각 산업 도메인의 전문가가 될 것이라 생각합니다. 그만큼 그들이 폭넓은 이해를 바탕으로 AI 에이전트의 기술적 가능성과 한계를 이해하고, 정확한 문제를 정의한 뒤 AI 전문가들과 협업할 때 진정 가치 있는 AI 구현이 더 빨라질 것이라고도 확신합니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널