일반

[IT백과] 사진 하나로 세상을 만드는 AI '월드모델'

이건한 기자

정보기술(IT) 영역에 관한 모든 지식을 압축해 풀이합니다. IT산업에 꼭 필요한 용어들을 소개하고, 살펴보면 좋을 쟁점들도 정리합니다. IT가 처음인 입문자라면 혹은 동향을 알고 싶은 전문가라면, 디지털데일리의 'IT백과'를 참고하세요. <편집자주>

[디지털데일리 이건한 기자] 생성형 인공지능(AI) 기술은 현재 텍스트 처리에 최적화된 LLM(대형언어모델)부터 이미지, 비디오, 오디오 등 멀티미디어 데이터 처리도 가능한 LMM(대형멀티모달모델)로 빠르게 진화하고 있다. 특히 2025년은 멀티모달 AI 발달에 따라 더 다양한 기능 수행이 가능한 'AI 에이전트' 역시 쏟아져 나올 것으로 예측되고 있다. 이어 AI 모델의 다음 수순으로 꼽히는 것이 바로 '월드모델(World model)'이다.

[ⓒ DALL·E AI 생성 이미지]
[ⓒ DALL·E AI 생성 이미지]

월드모델은 'AI가 세상을 이해하고 행동을 계획할 수 있는 가상공간'을 의미한다. 월드모델 안에서 AI는 스스로 어떤 실험을 하거나, 인간 사용자가 아바타를 통해 탐험하고 상호작용할 수 있는 공간을 제공할 수 있다.

월드모델이 기존의 3D 시뮬레이션과 다른 점은 가상공간을 생성하는 주체의 차이다. 시뮬레이션 공간은 인간이 직접 현실 세계의 물리법칙이나 특정 조건을 소프트웨어에 입력해 설계된다. 'A 공간의 바람 세기는 10m/s, 중력은 지구 기준'처럼 특정 목적 달성을 위한 기준이 시뮬레이션 공간을 형성하는 중심이다.

월드모델은 이 일을 AI가 직접 한다. '~공간을 만들라'는 목표만 인간이 제시하면 AI는 직접 자신이 이해한 현실의 물리법칙, 물체 간 상호작용, 개체의 특징 등을 바탕으로 가상세계를 생성하는 것이다. 사람이 일일이 설정값을 입력하지 않으므로 특정 실험 중심의 시뮬레이션 공간보다 훨씬 다양한 목적의 가상세계를 쉽고 빠르게 만들 수 있다. 한마디로 시뮬레이션은 사람이 설계한 현실의 모방이며, 월드모델은 AI가 스스로 학습한 데이터를 토대로 만들어지는 가상현실이다.

월드모델의 대표주자로는 AI의 대모로 불리는 페이페이 리 스탠포드대 교수가 꼽힌다. 그는 2024년 4월 '월드랩스'를 설립하고 단일 이미지에서 3D 세계를 생성할 수 있는 월드모델 AI를 개발하고 있다. 지난해 12월 공개된 첫번째 월드모델을 보면 고품질 3D 게임 속 세상이 연상되는 예시들을 다수 볼 수 있다.

[ⓒ 월드랩스 홈페이지]
[ⓒ 월드랩스 홈페이지]
[ⓒ 월드랩스 홈페이지]
[ⓒ 월드랩스 홈페이지]

사용자는 이미지에서 생성된 월드모델 공간을 360도로 둘러보고, 1인칭 시점에서 직접 이동해볼 수도 있다. 또한 카메라의 초점을 조절하거나 색상 효과를 조절하고, 나무를 흔드는 등의 애니메이션 효과를 넣는 것도 가능하다. 반고흐나 칸딘스키의 명화 이미지를 바탕으로 한 3D 월드모델 예시들도 있다. 이 같은 기술을 보유한 월드랩스는 지난해 이미 10억달러 이상의 기업가치를 평가받고 앤드리슨 호로위치, 래디컬 벤처스 등 주요 투자사들의 높은 관심을 끌고 있다.

구글 또한 월드모델에 관심이 많은 빅테크 기업이다. 월드랩스와 비슷한 시기 구글 딥마인드도 이미지 기반으로 3D 세계를 생성할 수 있는 '지니2(Genie 2)' 모델을 공개했다. 지니2 역시 기초 이미지에 텍스트 설명을 넣으면 수십초 간 일관성이 유지되는 3D 공간 생성이 가능한 모습이 시연된 바 있다. 딥마인드는 이어 지난 7일 오픈AI '소라' 개발팀 리더였던 팀 브룩스가 이끄는 월드모델 개발 전담팀을 구축하는 등 올해도 관련 기술 고도화에 박차를 가하는 중이다.

[ⓒ 구글 딥마인드]
[ⓒ 구글 딥마인드]

월드모델이 이처럼 관심을 끄는 이유는 AI의 잠재력 극대화와 관련이 깊다. 월드모델 기술의 완성은 곧 AI가 현실을 살아가는 인간과 동일하게 세상의 법칙을 이해하게 된다는 의미다. AI가 현실에서도 인간과 더욱 밀접해지는 길이기도 하다. 가령 AI 로봇은 현재 미리 프로그래밍된 행동만 할 수 있다. 아직은 로봇이 자신의 신체와 주변 환경에 대한 이해가 얕아 능동적으로 행동할 수 없기 때문이다. 동시에 월드모델은 가상세계의 설계와 운영 측면에서도 기존 시뮬레이션 기술보다 훨씬 비용 효율적이며 신속한 활용이 가능하므로 연구 효용 개선에 기여할 수 있다.

다만 월드모델의 실질적 완성까지는 가야 할 길이 멀다. 우선 실세계에 존재하는 매우 다양한 사물의 특성, 감각, 상호작용에 관한 것들을 데이터로 변환하고 AI에게 이해시키는 과정부터 구조적으로 난이도가 높은 문제다. 또한 동시에 수많은 데이터를 처리하고, 가상공간을 창조한다는 건 엄청난 컴퓨팅 자원이 필요한 일이다. 현재도 대형 LLM 학습과 서비스 운영에 막대한 컴퓨팅 비용이 소모되는 점이 AI 업계의 주요 문제로 꼽히는 점을 고려하면, 월드모델 역시 상용화 과정에서 동일한 문제를 마주할 가능성이 높다.

그럼에도 현재 물리적 세계와 단절된 AI의 한계를 극복할 대안으로서 월드모델은 향후 수년간 빅테크를 중심으로 공격적인 투자 대상이 될 전망이다. 이와 관련해 미국 IT매체 테크크런치에 따르면 세계 AI 4대 석학 중 하나인 얀 르쿤 메타AI 수석과학자는 지난 23일 "LLM의 수명은 앞으로 3~5년 정도로 매우 짧은 것"이라며 "AI가 진정한 지능을 갖추려면 물리 세계에 대한 이해, 지속적인 기억력과 복잡한 계획 수립 능력 등 월드모델 개념이 중요하다"고 강조했다. 또한 그는 이 단계에 이르지 못한 로봇은 물리세계를 이해하는 고양이 수준 로봇조차 못하다"며 "다음 10년은 로봇공학의 시대가 될 것"이라고 전망하기도 했다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널