엔비디아, 88코어 베라 CPU '단일 모델'로 승부… Groq 칩 중국 진출도 준비

엔비디아가 GTC 2026에서 88코어 베라 (Vera) CPU를 공개하며 데이터센터 CPU 시장에 본격 진출한다. 단 하나의 SKU로 수십억 달러 매출을 노리는 파격 전략이다. 동시에 200억 달러에 인수한 Groq의 LPU 기술을 활용해 중국 추론 칩 시장까지 공략하며, AI 반도체 시장의 판도를 다시 쓰고 있다.

베라 CPU, 엔비디아 최초의 완전 자체 설계 데이터센터 프로세서

엔비디아가 GTC 2026 키노트에서 공개한 베라(Vera) CPU는 88개의 올림푸스(Olympus) 커스텀 코어를 탑재한 Arm v9.2 기반 데이터센터 프로세서이다. 이는 엔비디아가 처음으로 완전히 자체 설계한 CPU 코어로, 전작인 그레이스(Grace)의 72코어에서 22% 증가한 수치이다. 10-와이드 명령어 페치 및 디코드 프론트엔드와 신경망 기반 분기 예측기를 탑재해 사이클당 두 개의 분기를 처리할 수 있다. 엔비디아 공간 멀티스레딩(SMT) 기술은 스레드당 성능과 스레드 수 사이를 런타임에서 동적으로 선택할 수 있어, 안정적인 성능과 예측 가능한 테일 레이턴시를 보장한다. 메모리 대역폭은 코어당 14GB/s로, 전통적인 데이터센터 CPU 대비 3배 수준이다.

‘단 하나의 SKU’ 전략, 인텔·AMD와의 차별화

업계에서 가장 주목하는 점은 엔비디아가 베라 CPU를 단 하나의 모델(SKU)로만 생산한다는 결정이다. 이언 벅(Ian Buck) 엔비디아 부사장 겸 하이퍼스케일·HPC 사업부 총괄은 “우리는 베라 CPU SKU를 단 하나만 만들 것”이라고 밝혔다. 인텔 제온(Xeon)이나 AMD 에픽(EPYC)이 수십 가지 코어 수·클럭·가격 조합의 SKU를 제공하는 것과는 정반대 전략이다. 젠슨 황 (Jensen Huang) CEO는 이 단일 SKU로 수십억 달러의 매출을 달성하겠다고 선언했다. 단일 모델 전략은 생산 비용을 크게 절감하고 공급망을 단순화하는 이점이 있지만, 다양한 워크로드에 대한 시장 침투력이 제한될 수 있다는 우려도 존재한다.

항목	엔비디아 베라 CPU	AMD 에픽 튜린	인텔 제온 6
코어 수	88코어 (올림푸스)	최대 192코어	최대 144코어
아키텍처	Arm v9.2	x86 (Zen 5)	x86 (Granite Rapids)
메모리 대역폭	1.2TB/s	~460GB/s	~410GB/s
SKU 전략	단일 모델	다수 SKU	다수 SKU
샌드박스 성능	기준 (1.5배 우위)	기준	기준
메모리 용량	최대 1.5TB (LPDDR5X)	최대 1.5TB (DDR5)	최대 1TB (DDR5)

베라의 기술적 무기: 모놀리식 다이와 1.2TB/s 대역폭

베라 CPU의 핵심 경쟁력은 모놀리식(단일) 다이 설계에 있다. 메모리와 I/O를 위한 인접 다이렛(dielet)과 함께 단일 통합 컴퓨트 다이를 사용해, 모든 코어가 캐시·메모리·네트워킹 등 리소스에 동일한 거리에서 접근할 수 있다. 확장 가능 일관성 패브릭(SCF)은 3.4TB/s의 이분 대역폭을 제공하며, 부하 상태에서도 피크 메모리 대역폭의 90% 이상을 유지한다. 2세대 LPDDR5X 메모리와 SOCAMM(Small Outline Compression-Attached Memory Module) 모듈을 채택해 저전력 메모리를 데이터센터에 최초로 도입했다. 엔비디아에 따르면 베라 CPU 랙은 x86 랙 대비 4배의 용량과 2배의 와트당 성능을 제공하며, 랙당 2만 2,500개 이상의 샌드박스를 처리할 수 있다. 시스코(Cisco), 델(Dell), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro) 등 주요 OEM을 통해 2026년 하반기 출시가 예정되어 있다.

Groq 200억 달러 인수, 추론 시장의 게임 체인저

엔비디아는 2025년 말 AI 칩 스타트업 Groq를 약 200억 달러(약 29조 원)에 인수하며 추론(inference) 시장의 판도를 바꿀 무기를 확보했다. Groq의 핵심 기술인 LPU(Language Processing Unit)는 GPU와 근본적으로 다른 접근법을 취한다. GPU가 대규모 병렬 연산에 최적화되어 있다면, LPU는 극도로 낮은 지연시간의 토큰 생성에 특화되어 있다. 최신 Groq 3 LPU는 칩당 1.2페타플롭스(FP8) 연산 능력과 500MB의 온칩 SRAM을 탑재하며, 150TB/s의 메모리 대역폭은 엔비디아 자사 루빈 (Rubin) GPU의 22TB/s 대비 약 7배에 달한다. 컴파일러가 모든 명령어를 사전 스케줄링하는 결정론적 방식으로 하드웨어의 데이터 가용성 추측을 제거해, 사용자당 초당 1,000개 이상의 토큰을 생성할 수 있다.

LPX 랙: GPU와 LPU의 하이브리드 추론 아키텍처

엔비디아는 256개의 Groq 3 칩을 탑재한 LPX 랙을 공개했다. 이 랙은 커스텀 스펙트럼-X(Spectrum-X) 인터커넥트를 통해 베라 루빈 NVL72 랙과 연결된다. 핵심은 워크로드 분할에 있다. GPU는 컴퓨트 집약적인 프리필(prefill) 단계와 어텐션 연산을 담당하고, LPU는 메모리 민감한 디코드 단계의 피드포워드 네트워크를 처리한다. 엔비디아에 따르면 이 하이브리드 구성은 그레이스 블랙웰(Grace Blackwell) 대비 메가와트당 35배의 처리량 향상과 10배의 수익 기회를 제공한다. 다만 현재 CUDA 통합은 이루어지지 않아 LPU는 외부 가속기로 동작하며, 이는 향후 소프트웨어 생태계 확장의 과제로 남아 있다.

H200 중국 수출 재개와 Groq 칩 중국판 준비

엔비디아의 중국 시장 공략도 새로운 국면에 접어들었다. 젠슨 황 CEO는 GTC에서 트럼프 행정부로부터 수출 라이선스를 확보하고 중국 고객사로부터 구매 주문을 받아 H200 생산을 재개했다고 밝혔다. 바이트댄스(ByteDance), 텐센트 (Tencent), 알리바바(Alibaba), 딥시크 (DeepSeek) 등이 올해 1월 베이징으로부터 사전 승인을 받은 것으로 알려졌다. 중국은 과거 엔비디아 전체 매출의 13%를 차지했던 시장이다. 더 나아가 엔비디아는 2026년 5월 출시를 목표로 Groq 추론 칩의 중국 판매용 변형 모델을 준비 중이다. 이 칩은 성능을 하향 조정한 것이 아니라, 다른 시스템에 적응 가능한 변형 버전이다. 다만 최상위 제품인 베라 루빈은 수출 규제 대상으로, 시장 세분화가 불가피하다.

전망: 한국 반도체 생태계에 던지는 시사점

엔비디아의 이번 행보는 한국 반도체 산업에 복합적 영향을 미친다. 베라 CPU의 LPDDR5X 채택은 삼성전자와 SK하이닉스의 저전력 메모리 수요를 견인할 전망이다. 반면 Groq LPU의 150TB/s 온칩 대역폭은 HBM (고대역폭메모리) 시장에 장기적 위협이 될 수 있다. 추론 워크로드가 GPU에서 LPU로 이동하면 HBM 수요 성장세가 둔화될 가능성이 있기 때문이다. 젠슨 황은 블랙웰과 루빈 시스템만으로 2027년까지 1조 달러(약 1,450조 원) 이상의 매출을 전망했다. 바이두, 화웨이 등 중국 기업들이 자체 추론 칩을 개발하고 있어 경쟁은 치열해질 것이나, 엔비디아의 GPU +LPU 하이브리드 전략과 단일 SKU CPU라는 파격적 포트폴리오는 AI 반도체 시장의 새로운 기준점이 되고 있다.

About

엔비디아, 88코어 베라 CPU ‘단일 모델’로 승부… Groq 칩 중국 진출도 준비

마이크로소프트, AI 데이터센터 폭주가 청정에너지 목표와 충돌한다

브록먼이 밝힌 ‘머스크가 오픈AI를 떠난 과정’

스페이스X, 텍사스에 최대 1,190억 달러 ‘테라팹’ 반도체 공장 건설