AI

[레드햇 서밋 2025] AI 경량화 시대, '오픈소스 추론 서버'로 속도

보스턴(미국)=이나연 기자
크리스 라이트 레드햇 최고기술책임자(CTO) 겸 글로벌 엔지니어링 부문 수석부사장(SVP)이 20일(현지시간) 미국 매사추세츠주 보스턴 컨벤션 전시 센터(BCEC)에서 열린 '레드햇 서밋 2025'에서 기조연설을 하고 있다.
크리스 라이트 레드햇 최고기술책임자(CTO) 겸 글로벌 엔지니어링 부문 수석부사장(SVP)이 20일(현지시간) 미국 매사추세츠주 보스턴 컨벤션 전시 센터(BCEC)에서 열린 '레드햇 서밋 2025'에서 기조연설을 하고 있다.

[디지털데일리 이나연기자] 글로벌 오픈소스 솔루션 기업 레드햇이 생성형 인공지능(AI) 대중화를 가속할 '레드햇 AI 인퍼런스 서버'를 공식 출시하며 시장 공략에 나섰다. 오픈소스 기반의 이 고성능 추론 서버는 다양한 클라우드와 하드웨어 환경에서 거대언어모델(LLM)을 신속하고 효율적으로 실행할 수 있도록 설계됐다.

레드햇은 20일(현지시간) 미국 매사추세츠주 보스턴 컨벤션 전시 센터(BCEC)에서 열린 '레드햇 서밋 2025'에서 레드햇 AI 인퍼런스 서버를 출시했다고 발표했다. 추론 병목, 가속기 낭비, 운영 비용 증가 등 생성형 AI 도입 과정에서 발생하는 핵심 기술적 과제를 해결하고, 기업이 더 유연하고 안전하게 AI를 확장할 수 있도록 지원한다는 방침이다.

AI 시스템 운영 단계에서 핵심 역할을 하는 추론은 사전 학습된 AI 모델이 입력된 데이터를 바탕으로 유의미한 결과나 답변을 생성하는 것을 뜻한다. 다만 생성형 AI 모델의 복잡성 증가와 프로덕션 확산 탓에 병목 현상과 운영 비용이 증가하는 건 과제다.

크리스 라이트 레드햇 최고기술책임자(CTO) 겸 글로벌 엔지니어링 부문 수석부사장(SVP)은 이날 오전 기조연설 이후 이어진 글로벌 기자간담회에서 "과거 수조 개의 파라미터(매개변수)를 가진 초대형 AI 모델에 관심이 쏠렸다면, 이제는 더 작고 경량화된 모델이 실용성과 비용 측면에서 주목받고 있다"고 밝혔다.

올해 초 등장한 딥시크 'V3'와 'R1' 모델 등은 오픈소스 모델에 '추론 기반 사고력'을 더해 최첨단 폐쇄형 상용 모델과의 간극을 좁히고 있다는 게 그의 설명이다. 라이트 CTO는 "모든 것의 핵심 개념이 바로 '추론 시간 확장"이라며 "토큰당 전력 소비 대비 비용을 최소화하는 최적 구조를 추구하는 게 레드햇 AI 주요 목표 중 하나"라고 설명했다.

레드햇 AI 인퍼런스 서버는 고성능 설계와 모델 최적화 기술을 갖춘 개방형 추론 솔루션으로서 관련 과제들을 직접적으로 해결한다. 이 제품은 vLLM(Virtual Large Language Model) 커뮤니티 프로젝트와 레드햇이 작년 인수에 나선 생성형 AI 워크로드 전문기업 '뉴럴매직' 기술 통합으로 탄생했다.

더 향상된 속도와 가속기 효율 및 비용 효율을 제공해 모든 클라우드 환경의 AI 가속기에서 생성형 AI 모델들을 실행할 수 있게 지원하는 게 특징이다.

또한 컨테이너화된 독립형 제품이나 RHEL AI(IBM Granite 오픈소스 LLM 개발·테스트·실행 플랫폼), 레드햇 오픈시프트 AI(쿠버네티스 환경의 AI 개발·배포 플랫폼)의 통합 구성 요소 배포와 관계없이 생성형 AI를 프로덕션 환경에 안전하게 배포 및 확장할 수 있도록 돕는다.

라이트 CTO는 "추론, 개발, 확장 등 각 영역을 지원하는 여러 제품을 보유한 게 레드햇 AI 본질"이라며 "레드햇 AI 인퍼런스 서버가 그 예시다"라고 강조했다.

업계 내 주요 반도체 및 AI 인프라 기업들도 레드햇 AI 인퍼런스 서버의 생태계 확장에 동참하고 있다.

빌 피어슨 인텔 데이터센터 AI 소프트웨어 솔루션 및 에코시스템 부문 부사장은 "레드햇과의 협력을 통해 인텔 가우디 가속기에서 레드햇 AI 인퍼런스 서버를 지원해 기쁘다"며 "고객에게 AI 추론을 간소화하고 확장할 수 있는 최적화된 솔루션을 제공해 광범위한 엔터프라이즈 AI 애플리케이션을 위한 고급 성능과 효율성을 확보할 수 있게 지원하겠다"고 말했다.

존 파넬리 엔비디아 엔터프라이즈 소프트웨어 부문 부사장도 "개방형 풀스택 엔비디아 가속 컴퓨팅과 레드햇 AI 인퍼런스 서버로 개발자는 하이브리드 클라우드 전반에서 효율적인 추론을 대규모로 실행하고 새로운 '엔비디아 엔터프라이즈 AI' 검증 설계가 적용된 레드햇 인퍼런스 서버를 사용해 안심하고 배포할 수 있다"고 전했다.

보스턴(미국)=이나연 기자
lny@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널