반도체

[4세대 인텔 제온] ① ‘독주’ 보다 ‘동반’...성능기준 바꾼 '게임체인저' [소부장반

김문기

- 최대 60개 코어, 전반적인 성능 15% 향상
- 12개 가속기 조합을 통한 워크로드별 잠재력 끌어내
- 인텔 AMX 내재화를 통한 AI 성능 한단계 더 진화

[디지털데일리 김문기 기자] 인텔이 4세대 제온 스케일러블 프로세서를 선보였다.

코드명 ‘사파이어 래피즈’로 알려진 4세대 제온 프로세서는 기다려온만큼 시장의 큰 변화를 이끌고 있다. 내부 마이크로 아키텍처부터 확연하게 바뀌기도 했거니와 외부적으로는 5G 이동통신과 챗GPT 등에 따라 데이터센터의 역할이 커짐에 따라 이를 역동적으로 대응할 수 있는 제품군이기도 하다. 메모리 측면에서 DDR5, CXL이라는 신규 시장을 열어주는 계기가 됨과 동시에 다양한 워크로드에 부합하는 맞춤형 솔루션이기도 하다.

한마디로 정의 내린다면 ‘게임체인저’라 부르는데 손색이 없다.

외부적인 반응은 뜨겁다. 1년의 지연이 무색하게도 AWS, 시스코, 클라우데라, 코어위브, 델 테크놀로지스, 드롭박스, 구글 클라우드, 에릭슨, 후지쯔, 휴렛팩커드 엔터프라이즈, IBM 클라우드, 인스퍼, IONOS, 레노버, 로스알라모스 국립연구소, 마이크로소프트 애저, 엔비디아, 오라클 클라우드, OVH 클라우드, 피닉스NAP, 레드햇, SAP, 슈퍼마이크로, 텔레포니카, VM웨어 등 이루 말할 수 없는 수많은 파트너사들이 채택을 알렸다.



◆‘나홀로' 아닌 ‘같이' 달리기…성능 기준을 바꾸다

차세대 프로세서의 등장은 대체적으로 성능 향상, 더 세밀하게는 ‘속도’에 초점을 둔다. 물론 4세대 인텔 제온 스케일러블 프로세서도 성능 향상으로 귀결되는 특성이 분명 존재한다.

하지만 이보다 더 세부적으로 들어간다면, 자체적으로 최대의 성능을 보여준다기보다는 각 워크로드에 맞춰서 최대의 성능을 이끌어 내는데 더 주안점을 뒀다. 가령, 달리기 경주에서 그간 인텔이라는 주자가 빠른 속도로 독주하는 것이 아니라 파트너들이 그 속도에 맞출 수 있게 옆에서 함께 뛰는 페이스메이커를 자처하고 있는 셈이다. 그러다보니 인텔도 파트너도 기존의 한계를 벗어나 특정 영역에서 더 놀라운 성능을 낼 수 있게 된다.

즉, 생산자적 관점(인텔)에서의 성능 향상이라는 의미는 세분화되고 다양화되는 시장 상황에 맞춰 수용자적 관점(파트너)에서의 성능 향상이 더 중요해졌다. ‘성능’이라는 바로미터는 결과적으로 혼자만이 낼 수 있는 결과가 아니라 언제 어디어서 어떤 방식으로 성능을 끌어올리기 위한 효율성을 담보하고 있는가로 전환됐다.

나승주 인텔코리아 상무는 이에 대해 “디지털 전환이 이뤄지는 시점에서 수요 증가는 누구도 부인하지 않고 있으며, 이에 충촉하기 위해 인텔 역시 계속해서 생산시설을 구축하고 엄청난 투자를 단행하고 있다”라며, “하지만 프로세서 내부 아키텍처 향상과 성능 증가가 계속해서 이뤄지는 과정에서 이 증가하는 속도 대비 커지는 수요에 따른 성능 상의 차이가 발생하게 되고, 이같은 간극을 어떻게 하면 메울 수 있을지에 대해 집중했다”고 말했다.

이어, “고객이 실제 상용화고 있는 워크로드에 따라 더 맞는 성능을 개선할 수 있는 방법으로 관점을 전환했다”라며, “그 결과 빠르게 동작하면서도 에너지 효율성과 비용 등 여러가지 측면에 부합할 수 있는 4세대 인텔 제온이 설계됐으며, 보다 더 나은 가치를 가져올 수 있을 것”이라고 자신했다.

인텔의 이같은 전환은 사실 예견된 수순이다. 현재, 새로운 서비스형 비즈니스 모델을 포함한 IT 서비스를 위한 온프레미스 서버, 인터넷 트래픽 관리를 위한 네트워킹 장비, 엣지에서 컴퓨팅 작업을 수행하는 무선 기지국, 클라우드 서비스까지, 현재 시장에서는 약 1억개 이상의 인텔 제온 스케일러블 프로세서가 구동 중이다.

수십 년에 걸친 데이터 센터, 네트워킹 및 지능형 엣지 혁신과 노하우가 신규 4세대 인텔 제온 프로세서에 고스란히 녹아든 셈이다.

다양한 워크로드에서 유의미한 성능 향상을 이끌어내기 위해 인텔은 전세계 CPU 중 내장된 가속기가 가장 많은 4세대 제온을 고안했다. 기존 내외부로 흩어져 있던 가속 관련 기능들을 CPU 안으로 끌어 들여 내재화했다. 이 가속기는 실제 AI, 데이터 분석, 네트워킹, 보안, 스토리지 및 HPC 전반에서 다양한 조합으로 워크로드 효율성을 극대화시킨다.

대표적으로 ▲2D 타일 연산으로 AI 추론과 학습을 강화하는 ‘인텔 어드밴스드 매트릭스 익스텐션(AMX)’ ▲빠른 암호화 및 대량 데이터 압축 ‘인텔 퀵어시스트 기술(QAT) ▲대기열 스케쥴링 및 패킷 처리 최적화 ‘인텔 다이내믹 로드 밸런서(DLB) ▲작은 메모리 대역폭으로 데이터베이스 성능 향상 ‘인텔 인-메모리 분석 가속기(IAA)’ ▲데이터 이동속도 향상 ‘인텔 데이터 스트리밍 가속기(DSA)’를 꼽을 수 있다.

수많은 가속기는 챗GPT 등의 인공지능(AI) 분야와 5G 시대의 네트워킹, 스토리지, 고성능 컴퓨팅(HPC), 데이터 분석, 보안 등에서 각각의 조합을 통해 최대 성능과 효율성을 달성한다.

이같은 4세대 인텔 제온 스케일러블 프로세서가 내장된 가속기를 사용할 경우 전 세대 대비 목표 워크로드 처리에 평균 2.9배 높은 와트당 성능을 제공한다. 전력 최적화 모드에서 성능 손실 없이 최대 70W 낮은 전력으로 구동 가능하며, 52% ~ 66% 낮은 TCO를 제공한다.

세부적으로는 범용 컴퓨팅에서 53% 평균 성능 향상, 인공지능은 최대 10배 높은 추론과 학습 성능, 네트워크 5G vRAN 분야에서는 동일한 전력 엔벨롭에서 vRAN 워크로드 용량은 최대 2배, 네트워킹과 스토리지 분야에서는 95% 적은 코어로 더 높은 데이터 압축 성능을 보여 최대 2배 향상, 데이터 분석에 있어서도 최대 3배 성능 향상 등을 보인다.

◆ 똑똑한 두뇌가 단순 연산도 잘한다

4세대 인텔 제온 스케일러블 프로세서는 코어 마이크로 아키텍처 변화뿐만 아니라 48개에서 최대 60개의 코어 수 확장과 4개에서 6개로 늘어난 디코더, 실행유닛으로 연결되는 관문인 포트 수도 10개에서 12개로 증가하고 논리연산을 담당하는 ALU 역시 4개에서 5개로 증가했다. 메모리 I/O 역시 개선됐다. 이같은 진화를 통해 성능은 전체적으로 약 15% 증가했다.

그 중에서도 가장 특이점은 가속기 중 하나인 인텔 ‘어드밴스드 매트릭스 익스텐션(AMX)’의 내재화다. CPU의 백터 영역에 추가된 AMX는 최근 요구되는 AI 연산에 중요한 역할을 해준다. 기존 GPU 고유 영역으로 여겨졌던 AI 연산을 더 똑똑한 두뇌인 CPU가 처리할 수 있게 된 셈이다.

이를테면 실행유닛 측면에서의 연산 방식은 하나하나 계산해서 넘겨주는 방식이다. 이를 벡터 영역에서는 하나가 아니라 32개가 모인 하나의 줄로 구성해 한번에 넘겨준다. 즉 점과 점을 넘겨주던 기존 스칼라(Scalar)에서 점을 연결해 선을 만들어 넘겨 줘 더 빠른 속도를 낼 수 있게 해주는 것.


하지만 이러한 방식으로도 AI 연산에 부족하다. 때문에 인텔은 매트릭스 방식을 고안했다. 그 결과 내재화된 AMX는 32개의 점이 모인 선을 연속으로 정렬시켜 마치 면으로 구성해 한번에 넘겨주는 방식을 채택했다.

나 상무는 “AMX의 내재화는 CPU도 AI 처리가 준비됐다는 것이며, 이것이야 말로 게임체인저라고 할 수 있다”라며, “추론 등의 작업은 GPU보다는 이미 80%가 CPU인 제온에서 수행된다”고 말했다.

이어, “일반 서비스 환경에서는 GPU가 역할을 할 수는 있겠으나 그런 환경만 있는 것은 아니다”라며, “데이터 처리도 하고 추론도 하고 데이터를 돌리고 엔진을 적용하는 등 한 서버에서 여러가지 작업을 수행해야 하기에 CPU가 AI 처리가 가능하게 된다면 유연성과 확장성은 크게 올릴 수 있다”고 설명했다.

특히 인텔 AMX는 한국 기업들의 관심이 크다는 설명이다. AMX 내장 가속기를 통해 전세대 대비 10배 높은 파이토치 실시간 AI 추론 및 학습 성능을 제공한다. 인텔 제온 CPU 맥스 시리즈는 이러한 기능을 발판으로 자연어 처리 성능을 크게 확대했다. 거대 언어 모델에서 최대 20배 빠른 속도를 제공한다.

개발자들은 인텔 AI 소프트웨어 제품군을 통해 AI 모델 개발에 필요한 생산성과 효율성을 높이고 동시에 원하는 AI 도구를 선택해 사용할 수 있다. 해당 소프트웨어 제품군은 온프레미스 뿐 아니라 클라우드 및 엣지에서도 사용이 가능하다. 모든 비즈니스 부문에서 가장 일반적인 AI 사용 사례에 걸친 400개 상당의 머신러닝 및 딥러닝 AI 모델에서도 활용돼 왔다.

김문기
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널