엔비디아가 GTC 2026에서 베라 루빈 (Vera Rubin) 플랫폼, DGX 스테이션(DGX Station) GB300, 블루필드-4 STX를 공개하며 AI 인프라 로드맵을 대폭 확장했다. 젠슨 황 CEO는 2025~2027년 AI 인프라 누적 매출이 1조 달러(약 1,450조 원)에 달할 것이라고 전망했다.

젠슨 황, “AI 추론의 변곡점이 왔다”

엔비디아 (NVIDIA)가 3월 16~19일 미국 산호세에서 개최 중인 GTC 2026 컨퍼런스에서 차세대 AI 컴퓨팅 플랫폼 ‘베라 루빈(Vera Rubin )’을 정식 공개했다. 젠슨 황(Jensen Huang) CEO는 기조연설에서 “추론의 변곡점이 도래했다(The inference inflection has arrived)”고 선언하며, AI 워크로드가 사전 훈련에서 추론·에이전트 스케일링으로 전환되고 있다고 강조했다. 그는 2025~2027년 블랙웰(Blackwell)과 베라 루빈 시스템을 합친 AI 인프라 누적 매출이 1조 달러(약 1,450조 원)를 넘길 것이라고 밝혔다. 이는 1년 전 GTC 2025에서 제시한 5,000억 달러(약 725조 원) 전망치의 2배에 해당한다.

황 CEO는 데이터센터의 핵심 지표가 ‘와트당 토큰 수(tokens per watt)’로 전환되고 있다고 설명했다. 엔비디아에 따르면 지난 24개월간 토큰 생성 속도는 초당 200만 개에서 7억 개로 350배 급증했다. 2016년 DGX-1 대비 베라 루빈의 컴퓨팅 성능은 4,000만 배 향상된 수치이다.

베라 루빈 플랫폼: 7개 칩, 5개 랙, 1개 슈퍼컴퓨터

베라 루빈은 에이전틱 AI 시대를 겨냥한 풀스택 컴퓨팅 플랫폼이다. 7개 칩 유형(베라 CPU, 루빈 GPU , NVLink 6 스위치, ConnectX-9 NIC, 블루필드-4 DPU, 스펙트럼-X CPO NIC, Groq 3 LPU)을 5개 랙 스케일 시스템에 통합했다. NVL72 랙 1개에 루빈 GPU 72개와 베라 CPU 36개가 탑재되며, 3.6엑사플롭스(exaFLOPS)의 연산 성능과 260TB/s의 NVLink 대역폭을 제공한다.

40랙 규모의 베라 루빈 POD는 총 1,152개 루빈 GPU, 약 2만 개 엔비디아 다이, 1.2쿼드릴리언(1조 2,000억) 트랜지스터 , 60엑사플롭스의 성능을 구현한다. 냉각은 45도 온수 기반 100% 액냉 방식이며, 설치 시간은 기존 2일에서 2시간으로 단축되었다. 베라 루빈 기반 제품은 2026년 하반기 출하를 시작한다.

항목 베라 루빈 NVL72 베라 루빈 POD (40랙) 루빈 울트라 (2027)
GPU 72개 1,152개 144개 (단일 NVLink 도메인)
연산 성능 3.6 엑사플롭스 60 엑사플롭스 100 페타플롭스 (GPU당, FP4)
메모리 HBM4 HBM4 1TB HBM4E (GPU당)
냉각 45°C 온수 액냉 45°C 온수 액냉 카이버(Kyber) 랙
출하 시기 2026년 하반기 2026년 하반기 2027년

루빈 울트라: 1TB HBM4E 탑재한 역대 최대 AI GPU

엔비디아는 2027년 출시 예정인 ‘루빈 울트라(Rubin Ultra)’ 트레이도 시연했다. 루빈 울트라는 4개의 컴퓨트 칩렛으로 구성되며, 각 칩렛은 800mm² 이상의 다이 면적을 갖는다. 16개의 HBM4E 메모리 스택을 통해 GPU당 1TB 메모리를 제공하는 업계 최초의 AI 가속기이다. 단일 GPU의 FP4 연산 성능은 100페타플롭스에 달한다.

루빈 울트라는 새로운 ‘카이버(Kyber)’ 랙에 수직 삽입 방식으로 장착되며, 단일 NVLink 도메인에 144개 GPU를 수용한다. 현재 테이프아웃(tape-out) 단계에 있으며, 2027년 출하를 목표로 한다.

DGX 스테이션: 책상 위 20페타플롭스 슈퍼컴퓨터

이번 GTC에서 가장 주목받은 제품 중 하나는 DGX 스테이션이다. GB300 그레이스 블랙웰 울트라(Grace Blackwell Ultra) 데스크톱 슈퍼칩을 탑재한 이 워크스테이션은 20페타플롭스(NVFP4 기준)의 AI 연산 성능을 제공하며, 1조 파라미터 모델을 로컬에서 구동할 수 있다.

GPU는 2만 480개 CUDA 코어, 160 SM을 갖춘 블랙웰 울트라이며, CPU는 72코어 그레이스(Grace) Neoverse V2 프로세서이다. 252GB HBM3e 메모리(7.1TB/s 대역폭)와 496GB LPDDR5X 시스템 메모리를 합쳐 총 748GB의 코히어런트 메모리를 제공한다. CPU-GPU 간 900GB/s NVLink-C2C 인터커넥트와 CX8 슈퍼닉(SuperNIC)의 800Gb/s 네트워킹을 지원하며, TDP는 1,600W이다.

DGX 스테이션은 현재 주문 가능하며, 에이수스(ASUS), 델(Dell), 기가바이트(Gigabyte), MSI, 슈퍼마이크로(Supermicro) 등 파트너사를 통해 출하된다. MSI의 ‘엑스퍼트스테이션 WS300(XpertStation WS300)’은 CDW에서 9만 6,995달러(약 1억 4,064만 원)에 등록된 바 있다.

블루필드-4 STX: 에이전틱 AI의 스토리지 병목 해결

엔비디아는 블루필드-4 STX(BlueField-4 STX)도 공개했다. 이는 에이전틱 AI 추론 과정에서 발생하는 데이터 접근 병목을 해결하기 위한 모듈형 가속 스토리지 아키텍처이다. 스토리지 최적화 블루필드-4 DPU와 ConnectX-9 슈퍼닉 기반으로, 기존 CPU 기반 스토리지 대비 토큰 처리량 5배, 에너지 효율 4배, 페이지 수집 속도 2배 향상을 달성했다. 이미 8개 클라우드 사업자가 조기 도입을 확정했다.

Groq 3 LPU: 추론 전용 하드웨어의 등장

GTC 2026의 또 다른 이정표는 Groq 3 LPX(Language Processing Unit)이다. 엔비디아 플랫폼에 처음 포함된 전용 추론 하드웨어로, 랙당 256개 LPU 프로세서를 탑재한다. 프로세서당 128GB SRAM , 640TB/s 스케일업 대역폭을 갖추며, 기존 솔루션 대비 메가와트당 추론 처리량이 35배 높다. 삼성이 LP30 칩을 생산하며, 2026년 3분기 출하 예정이다.

2028년 파인만(Feynman)까지: 3세대 로드맵 완성

엔비디아는 2028년 출시할 ‘파인만(Feynman)’ 세대도 공개하며 3세대 로드맵을 완성했다. 파인만은 새로운 GPU(LP40, Groq팀과 공동개발, NVFP4 통합), 새로운 CPU ‘로사(Rosa, 로절린드 프랭클린에서 명명)’, 블루필드 5, CX 10, 그리고 CPO+구리 이중 경로 카이버 랙을 포함한다.

로드맵 요약은 다음과 같다. 2026년에 베라 루빈이 출하되고, 2027년에 루빈 울트라와 카이버 랙이 출시되며, 2028년에 파인만 세대가 등장한다. 엔비디아는 매년 새로운 아키텍처를 출시하는 ‘1년 주기 로드맵’을 공식화했다.

한국 시사점: AI 인프라 투자 경쟁과 반도체 공급망

이번 발표는 한국 반도체·메모리 업계에 직접적 영향을 미친다. 베라 루빈 플랫폼은 HBM4 메모리를, 루빈 울트라는 차세대 HBM4E를 요구한다. 삼성전자와 SK하이닉스 모두 HBM4 양산을 준비 중이며, 루빈 울트라의 GPU당 1TB HBM4E 탑재는 메모리 수요를 한 단계 끌어올릴 전망이다. 트렌드포스(TrendForce)에 따르면 삼성, 마이크론, 인텔 등이 베라 루빈과 파인만 세대의 핵심 부품 공급사로 이름을 올렸다.

DGX 스테이션의 약 1억 4,000만 원 가격대는 국내 AI 스타트업과 연구기관에게 온프레미스 AI 인프라의 새로운 선택지를 제시한다. 클라우드 비용 부담 없이 1조 파라미터 모델을 로컬에서 실행할 수 있다는 점은 데이터 주권이 중요한 금융·의료·국방 분야에서 특히 매력적이다. 다만 1,600W TDP는 국내 사무실 전력 인프라 기준으로 별도 전원 공사가 필요할 수 있어, 도입 시 시설 비용까지 고려해야 한다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version