일반

"한층 진보된 영상언어 처리 AI"... 트웰브랩스 '페가수스 1.2' 공개

이건한 기자

[디지털데일리 이건한 기자] 영상이해 AI 개발 기업 트웰브랩스가 한층 고도화된 영상언어 생성 모델인 '페가수스 1.2(Pegasus-1.2)를 12일 공개했다.

ⓒ 트웰브랩스
ⓒ 트웰브랩스

2023년 11월 초기 버전이 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)이다. 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 영상 기반 텍스트 생성 AI 기능들을 최초로 선보인 바 있다.

이번에 공개된 페가수스-1.2는 기존 버전 대비 크게 개선되었다. 우선 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 강화됐다. 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 높은 정확도로 처리 가능하다.

또한 영상을 효율적으로 저장 및 재사용하는 기술로 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리할 수 있다. 이를 통해 영상의 맥락과 세부 내용을 정확하고 자원 효율적으로 분석해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어내는 능력으로 AI 산업 현장에서 큰 가치를 창출할 것으로 회사는 기대하고 있다.

페가수스 1.2의 사용 예시로는 엔터테인먼트 분야에서 영상 콘텐츠 분류와 하이라이트 추출에, 교육 분야에서는 강의 영상 요약 및 키포인트 추출이 가능하다. 보안 분야에서는 CCTV 영상 분석 및 이상 징후 탐지에도 적용 가능하다.

또한 페가수스-1.2는 고급 비전 인코딩 전략과 정교한 토큰 감소 기술을 이용해 모델 크기를 크게 키우지 않고도 효율성과 이해도를 높였다. 더불어 주목할 점은 GPT-4o와 제미나이 1.5 Pro보다 빠른 응답 속도(latency)이며, 업계 선두주자인 제미나이 1.5 Pro, GPT-4o, 클로드 3.5 소네트의 API와 비교해도 더 뛰어난 성능을 더 낮은 비용으로 제공하게 됐다. 트웰브랩스는 여기에 자체 멀티모달 임베딩 모델인 마렝고와의 결합으로도 한층 더 정교한 영상 이해 서비스를 구현했다.

이승준 트웰브랩스 CTO는 "영상 이해를 위해서는 화면 속 객체들의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악할 수 있는 고도화된 AI 모델이 필요하다"며 "페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 되었다"고 말했다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널