구글, 오픈소스 비전AI ‘팔리젬마2’ 공개…“화학공식 인식·공간추론 뛰어나”

e비즈*솔루션

디지털데일리 발행일 2024-12-06 15:33:42

오병훈 기자

[ⓒ구글 개발자 블로그]

[디지털데일리 오병훈기자] 구글이 오픈소스 대형언어모델(LLM) ‘젬마’를 기반으로 한 새로운 비전 인공지능(AI) 모델 ‘팔리젬마2’를 공개했다. 해당 모델은 이미지를 읽고 맥락을 해석, 관련 설명 및 요약 등에 특화됐다.

5일(현지시간) 구글은 개발자 블로그 ‘구글 폴 디로퍼’를 통해 팔리젬마2를 처음 소개했다. 팔리젬마2는 앞서 공개된 ‘젬마2’ 모델을 기반으로 구축됐다. 오픈소스 AI 모델로써 더 쉽고 편리한 미세조정(파인튜닝) 과정도 제공한다.

대표적인 특징은 단순한 이미지 식별을 넘어 이미지 내에 내포된 감정, 맥락을 읽어 내 이와 관련한 캡션을 실시간으로 생성할 수도 있다는 점이다. 이 같은 팔리젬마2 성능은 ▲화학 공식 인식 ▲악보 인식 ▲공간 추론 ▲흉부 X선 보고서 생성 등에서 높은 활용성을 보여줄 수 있다는 것이 구글 측 설명이다. 또, 팔리젬마2는 사용자 작업 환경에 맞춘 성능을 제공하기 위해 다양한 크기(3B, 10B, 28B 매개변수)와 해상도(224px, 448px, 896px)를 지원한다.

팔리젬마2 이전 버전인 ‘팔리젬마’ 사용자들은 손쉽게 팔리젬마2로 업그레이드할 수 있다. 특별한 코드 수정 없이 다양한 작업에서 즉각적인 성능 향상을 제공한다는 설명이다. 또, 특정 작업 및 데이터셋에 맞게 기능을 파인튜닝할 수 있어, 이용자의 요구 사항을 충족할 수 있다는 것이다.

한편, 구글은 젬마 시리즈를 통한 대규모 오픈소스 AI 생태계 ‘젬마버스(Gemmaverse)’ 확장에 대해서도 언급했다. 구글은 지난 5월 공개된 팔리젬마를 시작으로 콜팔리(ColPali)의 시각적 문서 검색, 로보플로우(RoboFlow)의 미세 조정 기술, 실시간 객체 추적 발전 등 기술이 추가되고 있다.

오병훈 기자

digimon@ddaily.co.kr

기자의 전체기사 보기

이 기사와 관련된 기사

당신이 좋아할 만한 뉴스

연재기사

실시간 추천 뉴스

KT, 업무시스템 전면 전환…'카이로스X' 프로젝트 돌입
2025-04-20 21:50:10
[AI시대, ICT 정책은③] 콘텐츠산업 육성 예산, 전체의 0.14%…"국가 전략 산업으로 키워야"
2025-04-20 16:43:07
[툰설툰설] 연애 세포 살리는 로맨스…'입맞추는 사이' vs ‘내일도 출근!’
2025-04-20 14:41:20
日 택시단체 "호출서비스 인상적"…카카오모빌리티와 DX 협력 모색
2025-04-20 13:47:00
[IT클로즈업] 관세 태풍 속 韓CSAP…“망분리는 낡은 기술” 말한 AWS 속내
2025-04-20 10:43:46

회사명: ㈜디지털데일리｜제호: 디지털데일리｜등록번호 : 서울아00039｜등록발행연월일: 2005년 9월 6일｜사업자 등록번호: 101-86-13419
주소: (04057)서울특별시 마포구 신촌로14길 24(노고산동 54-46)｜대표전화: 02-334-7781｜Fax: 02-334-7782
대표자: 양경진｜편집국장: 채수웅｜개인정보·청소년보호책임자: 오주엽

뉴스

뉴스

기획/특집

부가서비스

이 기사와 관련된 기사

당신이 좋아할 만한 뉴스

많이 본 기사

연재기사

실시간 추천 뉴스