일반

'일잘러' AI 에이전트, 이렇게 만든다 [real! AI pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 요즘 글로벌 AI 빅테크, 연구자들은 '2025년이 AI 에이전트 확산의 원년'이 될 거라 입을 모아 말합니다. AI 에이전트는 사용자 질문에 단순히 답변만 하는 수동적인 AI가 아니라, 스스로 계획과 판단이 가능하고 실행까지 가능한 능동적인 'AI 비서'를 말합니다. 이런 서비스가 정말로 본격 확산된다면, 우리는 지금보다 더 많은 일을 AI에게 맡길 수 있게 될 텐데요. 나아가 각자가 자신만의 AI 에이전트를 만들어 쓰는 날이 올 것이란 예측도 따릅니다.

오늘은 이 똑똑한 AI 비서들은 어떻게 만들어지는지, 왜 진작 등장하지 못했는지에 대한 이야기 등을 LLMops(대형언어모델 운영) 전문가인 전지환 베슬AI CTO(최고기술책임자)가 알기 쉽게 풀어드립니다. 만약 AI 에이전트의 기본 개념부터 알아보고자 하는 독자들이 있다면 전 CTO가 앞서 작성한 <'왜? 어떻게?'가 없다면 AI 에이전트가 아닙니다> 편도 일독을 권합니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

■ AI 에이전트 기획, 꼭 기억할 3 요소

안녕하세요, 전지환입니다. 아마 올해는 독자분들도 다양한 경로에서 AI 에이전트 서비스를 접할 기회가 많을 겁니다. 자연히 직접 만들 수는 없을까? 같은 생각도 들 텐데요. 사실 AI 에이전트가 챗GPT에 '~ 기능을 가진 프로그램을 코딩해줘' 같은 단순 명령문(프롬프트)으로 '뚝딱' 만들 수 있는 건 아닙니다. 하지만 요즘 AI 에이전트에 관심이 많을 독자들을 위해 우선 AI 에이전트 개발에 무엇이 필요한지, 고려할 문제들은 무엇인지 기획자 시점에서 3가지 핵심만 간추려 소개해 드리려고 합니다.

1. 땅콩버터 뚜껑을 빵에 바르지 않으려면

우선 해외여행 일정을 짜고, 비행기 티켓도 대신 예매해주는 AI 에이전트를 만든다고 가정해 보겠습니다. 처음 고민할 일은 프롬프트 입력으로 에이전트의 역할을 지정하는 겁니다.

AI 에이전트도 뼈대는 우리가 잘 아는 LLM(대형언어모델)입니다. 예를 들어 챗GPT는 어떤 질문이 입력되면 'GPT' LLM으로 질문 의도를 분석하고, 답변을 생성해 사용자에게 제공하는 과정을 거칩니다. 마찬가지로 LLM로 AI 에이전트를 만들 때는 먼저 '너의 역할은 ~이며, ~기능을 수행해야 한다'는 프롬프트를 입력하는 과정이 첫 관문입니다.

이때 프롬프트의 품질이 상당히 중요한데요. 인간에게도 궁금한 점을 명확히 물어야 한번에 정확한 대답을 들을 수 있는 것처럼, AI 에이전트도 정확히 작동하려면 목표에 부합하면서 구체적인 프롬프트를 입력해줘야 합니다. 이는 위 예시처럼 한두 문장이 아니라 굉장히 길고, 정교한 형태가 될 수 있는데요. 이 과정에서 결과물 품질이 가장 좋은, 효율적인 프롬프트를 찾는 일련의 과정을 '프롬프트 엔지니어링(Prompt Engineering)'이라고 합니다.

AI는 아직 사람처럼 유연하게 사고하는 능력이 부족합니다. 따라서 '좋은 프롬프트 준비'라는 첫 단추는 얼핏 쉬워 보이지만 어렵고, 잘못 꿰면 이후 모든 단계에서 영향을 미칠 수 있습니다. 개인적으로 프롬프트 엔지니어링의 중요성은 무려 8년 전 유튜브에 게시된 '정확한 지침 챌린지(Exact Instructions Challenge)'로 잘 설명된다고 생각합니다.

'Josh Darnit'의 관련 영상 중 하나를 보면 아버지는 아들과 딸에게 '자신이 식빵에 땅콩버터를 발라 먹을 수 있게 지시하라'는 챌린지를 부여합니다. 이때 아이들이 종이에 적어 온 초반 지시(프롬프트)는 꽤 모호합니다. "땅콩버터 뚜껑을 열고 빵에 발라라"같은 수준이죠. 아마 보통의 사람이라면 땅콩버터 뚜껑을 열고 나이프에 버터를 발라 빵에 바르란 의미로 이해할 겁니다.

유튜브: Exact Instructions Challenge - THIS is why my kids hate me. | Josh Darnit
유튜브: Exact Instructions Challenge - THIS is why my kids hate me. | Josh Darnit

그러나 해당 지시에 아빠는 '땅콩버터 뚜껑을 열고, 땅콩버터 병을 그대로 빵에 문지르는 결과물'을 내놓습니다. 아이의 모호한 지시를 문자 그대로 수행한 셈인데요. 결국 아이들은 몇 차례나 더 지시문을 수정하고 나서야 아빠가 정상적인 땅콩버터 빵을 먹게 만듭니다. 이 영상에서 아빠를 사람보다 융통성이 부족한 AI 에이전트로, 아이들을 기획자나 개발자로 생각해 보세요. AI 에이전트 제작 과정에서 프롬프트 엔지니어링의 중요성이 너무나 쉽게 이해될 겁니다.

1-1. '구관이 명관'일수도… 프롬프트도 마찬가지

또한 프롬프트 엔지니어링 중 버전 및 품질 관리도 중요합니다. 안타깝지만 이런저런 프롬프트를 시도하다 보면 마지막보다 처음의 결과물이 더 나을 수도 있습니다. 이 때문에 다양한 프롬프트를 시도하되, 추후 검색과 활용이 쉽도록 버전 형태로 관리하거나, 유효한 성능의 프롬프트를 모아 패키지화하는 것이 효율적입니다.

대신 프롬프트의 질(Quality)은 주관적으로 평가하면 안 됩니다. 더군다나 역할이 분명한 AI 에이전트라면 수행할 명령에 대한 정답을 기준으로 객관적인 '평가용 데이터셋'과 '평가 도구'를 적용해야 합니다. 일종의 '채점지'를 잘 구축해 둬야 이후 어떤 프롬프트를 만들더라도 성능에 대해 일관적인 신뢰도 평가(Evaluation)가 가능하다는 이야기입니다.

2. 우리 에이전트에게 '좋은 참고서'를 주세요

양질의 프롬프트가 준비됐다면 다음 과제는 에이전트 도메인(domain, 분야)에 적합한 데이터 확보입니다. GPT나 라마(Llama) 같은 LLM은 모델에 광범위한 지식이 사전 학습되어 있지만, 범용성에 초점을 두고 있기에 모든 분야에서 똑똑한 건 아닙니다. 반면 특정 기능에 특화된 AI 에이전트는 사전학습 데이터 이상의 전문 데이터를 필요로 하는 경우가 많습니다. 우리 같은 사례라면 여행 도메인, 항공 도메인의 특화 데이터가 해당되겠지요.

이런 전문 데이터셋은 보통 RAG(검색증강생성) 기법으로 LLM과 연결됩니다. RAG는 일종의 '외부 백과사전'입니다. RAG를 이용하면 일부 데이터만을 위해 LLM을 재학습하는 것보다 비용과 시간이 크게 절약되고 데이터 최신화도 간편하게 할 수 있어 널리 쓰입니다.

다만 여기서도 AI 에이전트를 위한 RAG의 최적화는 특히 더 섬세할 필요가 있습니다. RAG는 단순히 데이터만 넣어둔다고 LLM이 쉽게 찾아 쓸 수 있는 건 아니거든요. 서점에도 책들이 주제별로, 그 안에서도 다시 장르별로, 작가별로 등 세부 규칙에 따라 진열돼 있어야 우리가 원하는 책을 쉽게 찾을 수 있는 것처럼 말입니다.

그만큼 RAG 속 데이터도 최대한 효율적인 구조로 저장돼 있어야 합니다. 이를 간과하면 정말 예상치 못한 문제가 발생할 수 있거든요. 특히 여행처럼 데이터가 실시간으로 업데이트되는 RAG는 데이터 호출에 실수할 경우, 잘못된 항공권 예약 등 중대한 손실을 초래할 수도 있다는 점을 더욱 유의해야 하겠습니다.

3. 안타깝지만 LLM은 입만 살았습니다

사실 프롬프트 엔지니어링, RAG를 포함한 데이터 최적화는 모든 AI 시스템에서 공통적으로 중요한 문제입니다. 다른 말로는 조금 뻔한 이야기라 지루하게 보였을지도 모르겠습니다. 하지만 지금부터 기존 AI와 미래형 AI 에이전트만의 차별점, 바로 '행동력' 부여에 대한 이 파트는 보다 흥미롭게 읽을 수 있을 것입니다. AI 에이전트 제작 후반기에 해당하는 이 일은 에이전트에 AI 외부 기능을 연결하는 작업으로 '툴 콜링(Tool Calling, 도구 호출)'이라 불립니다.

그거 아시나요? 아무리 똑똑한 LLM도 "스카이스캐너에서 항공권을 예약하라" 같은 명령은 직접 수행하지 못합니다. LLM은 기본적으로 '언어처리'에 특화된 AI이기 때문입니다. 반면 사람의 명령을 '항공권 예약 시스템에 접속하라'는 프로그램 명령어로 모델 내부에서 바꾸는 일은 쉽지 않을 뿐이지, 불가능한 일이 아닙니다. 즉, 쉽게 말해 AI 에이전트 제작 시 툴 콜링 관련 이슈는 주로 LLM에 없는 특정 서비스를 외부 시스템에 얼마나 잘 접속해 수행해 낼 수 있는지의 문제로 이해하면 되겠습니다.

(ⓒ DALL·E AI 생성 이미지)
(ⓒ DALL·E AI 생성 이미지)

3-1. API를 아세요? LLM에도 쓸 수 있습니다

사실 이런 이종 프로그램 간 기능 연결은 지금도 많은 컴퓨터 프로그램에서 'API(Application Programming Interface)' 연결이란 형태로 이뤄지고 있습니다. API를 잘 구축하면 다른 사람이 만든 프로그램에서 우리 서비스를 쉽게 연결해 쓸 수 있도록 할 수 있고, 반대로 개발하는 측은 모든 기능을 직접 개발하지 않아도 되므로 대단히 효율적인 상호협력이 되지요.

그럼 지금까지 왜 LLM에서는 API 기반 툴 콜링이 잘 이뤄지지 않았을까요? 문자 그대로 어려웠기 때문입니다. API 호출은 정확한 명령어 생성과 네트워크 접속이 중요한데, LLM은 특성상 사용자의 명령이 구체적이지 않으면 적절한 툴 호출에 필요한 명령문 생성 자체가 어려울 수 있고요. 결과물을 AI 서비스에 적절한 형태로 출력하는 일을 비롯, 안그래도 복잡한 LLM에 LLM 연결 전용 API까지 만들어 연결하는 건 일반 프로그램보다 난이도가 훨씬 높은 편에 속합니다.

물론 올해 많은 AI 에이전트 서비스가 출시될 것이란 예측은 이 장벽이 상당 부분 허물어졌다는 사실을 의미합니다. 게다가 LLM도 LMM 같은 멀티모달 데이터 처리 모델로 진화하고 있으니, 툴 콜링으로 연결 가능한 서비스도 훨씬 다양해질 수 있는 기반이 마련되고 있지요.

따라서 AI 에이전트 기획을 마무리해 가는 단계에서의 핵심은 'AI에 어떤 서비스의 API를 얼마나 효율적으로 연결할 것인가'로 귀결됩니다. 앞서 좋은 프롬프트와 최적화된 RAG 데이터셋을 준비했다면 이제 우리의 AI 에이전트는 웬만한 명령을 잘 이해하고 수행할 수 있습니다. 남은 건 목적에 따라 연결 가능한 API를 잘 조합해 에이전트의 기능성을 확장하는 겁니다.

3-2. AI 에이전트는 두 얼굴의 야누스

그런데 말입니다. 이쯤에서 AI 에이전트 개발이 다소 무서워지는 지점이 있습니다. 바로 어떤 서비스를 연결하는가에 따라 굉장히 생산적이거나, 반대로 위험한 에이전트도 만들어질 수 있기 때문입니다. 에이전트 서비스처럼 능동성을 지닌 AI는 때때로 사용자 명령을 오인하거나, 자체 판단과 행동도 가능합니다. 따라서 AI에게 마구잡이로 기능을 추가하는 것이 어떤 측면에선 예기치 못한 위험을 초래할 수도 있다는 사실 또한 기억해야 합니다.

관련하여 요즘 군사 분야에서 AI 에이전트 기술이 핫한데요. 가성비 좋은 전쟁 도구로 부상한 '드론'만 해도 이면에선 숙련된 조종사 육성이 굉장히 어려운 일에 속합니다. 그런데 이 조종사를 AI 에이전트 기술로 대체하면 어떨까요? 동시에 여러대의 공격 드론을 무인화 환경에서 더 공격적으로 운영할 수 있게 될 겁니다. 무서운 일이지요.

드론 제어 인력의 수고를 줄이기 위한 자동화 시도는 이미 이뤄지고 있다. 위 영상은 음성으로 드론을 제어하는 기술에 관한 'Primordial Labs'의 시연 장면이다.
드론 제어 인력의 수고를 줄이기 위한 자동화 시도는 이미 이뤄지고 있다. 위 영상은 음성으로 드론을 제어하는 기술에 관한 'Primordial Labs'의 시연 장면이다.

그러나 한편으로 AI 에이전트 기술이 선하게 쓰인다면, 우리가 기대하는 AGI나 초지능 구현도 한층 가까운 미래가 될 수 있습니다. 앞선 설명처럼 하나의 LLM에 다양한 외부 기능을 조합해 다기능 AI를 만든다면 그것은 '옴니모델(Omni model)' 형태의 통합형 AGI라고 부를 수 있습니다. 하지만 이 접근은 컴퓨팅 자원의 효율성 문제로 요즘은 인기가 없는 접근 방식입니다.

그보다 요즘 업계에선 '컴파운드(Compound) AI 시스템'에 주목합니다. 이는 '여행 특화 AI 에이전트'처럼 우선 특정 분야에 특화된 AI 에이전트를 다수 만들고, 이를 조합해 운영하는 중간 관리자격의 '오케스트레이터(Orchestrator)' 에이전트를 두는 형태인데요. 이런 에이전트 그룹이 모일수록 컴파운드란 이름처럼 하나의 거대하고 효율적인 기능 복합체를 형성할 수 있게 됩니다.

따라서 올해 정말 다양하고 독립적인 AI 에이전트들이 우선 출시된다면, 이후는 아마 분야별로 고도화된 복합형 AI 에이전트가 등장하기 시작할 겁니다. 나아가 특정 시점에는 AI 에이전트만으로 하나의 작은 기업, 오피스가 운영되는 일도 헛된 꿈은 아닐 것이라 생각됩니다.

■ 본격 AI 에이전트 사회로 가는 여정, Start!

자, 길었던 이야기를 마무리해볼까요? AI 에이전트는 결국 큰 틀에서 (1) 역할을 명확히 정의할 프롬프트 (2) 에이전트가 활용할 최적화된 전문 데이터셋 (3) 적절한 서비스 API 연결의 결과물로 만들어진다고 정리할 수 있습니다. 말로는 쉬워 보이지만 그동안 LLM의 언어 인지 능력과 추론 능력의 향상, RAG 최적화 기술 개발, LLM에서 구동 가능한 툴 콜링 기술 확보 등 긴 여정이 필요했던 일이었죠. 또한 현재진행형이기도 하므로, 각 기술이 발전할수록 AI 에이전트의 성능은 어쩌면 우리가 상상하는 속도 이상으로 빨라질 수 있습니다.

다만 몇 가지 숙제도 있습니다. AI 에이전트의 진정한 대중화를 말하려면, 비전문가도 쉽게 자신만의 에이전트를 만들어 운영할 수 있는 시점에 이르러야 할 겁니다. 하지만 이를 위해선 앞서 설명한 모든 과정이 비전문가의 자연어 프롬프팅 수준에서 이뤄지도록 자동화, 간소화, 최적화가 이뤄질 필요가 있죠.

지금도 이를 돕는 로우코드(Low code) 도구들이 있지만 현장의 비즈니스 고객들과 대화를 나눠보면 그마저도 어려워하는 이들이 많습니다. AI 에이전트의 대중화는 기술 개발 한편에서 접근 장벽을 낮추는 역할을 하는 이들도 꼭 필요할 것이란 이야기인데요. 현재 제가 몸 담고 있는 베슬AI는 다양한 모델과 AI 에이전트의 협업을 통해 AGI에 도달할 수 있다고 믿는 회사입니다. 여기에 따르는 온갖 기술적 허들을 낮추고, 복잡한 AI 운영을 간소화해 모든 기업이 컴파운드 AI 시스템을 만들 수 있도록 돕는 것이 목표이기도 합니다.

실제로 요즘 기업 고객들의 요구사항도 AI 에이전트를 이용한 비즈니스 단계로 진화함을 느낍니다. 2023년에는 기업들이 AI 모델 구축 그 자체에 관심이 많았고, 그에 발맞춰 저희도 모델의 학습, 튜닝, 운영, 배포 자동화 및 GPU 인프라 자원을 효율적으로 관리할 수 있는 플랫폼 'VESSL'에 주로 역량을 투입했지요.

VESLL 플랫폼 소개 中 (ⓒ 베슬AI 홈페이지)
VESLL 플랫폼 소개 中 (ⓒ 베슬AI 홈페이지)

지금은 다릅니다. 기업은 이제 생성형 AI로 '돈이 되는 비즈니스' 혹은 '비용을 절감하는' 도구로 작동하길 요구합니다. 이를 만족시키려면 필연적으로 AI가 단순 텍스트 생성을 넘어 고도화된 추론과 행동까지 해낼 수 있도록 해야 한다는 과제가 도출됩니다.

이를 위해 베슬AI 또한 고품질 RAG 및 툴 콜링 기술의 플랫폼화에 박차를 가하고 있는데요. 올해는 오픈AI나 구글, 메타, MS 같은 전통의 AI 강호들이 쏟아낼 '예견된 AI 에이전트'들과 저희 같은 조력자들을 통해 강소 스타트업들이 내놓을 '참신하고 도전적인 AI 에이전트' 등이 어우러져, 정말로 AGI 시대를 향한 전진에 큰 이정표가 세워지지 않을까 기대가 높아지는 요즘입니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널