AMD RDNA 5, 셰이더 유닛 활용률 2배 끌어올린다

AMD의 차세대 GPU 아키텍처 RDNA 5에서 듀얼 이슈 실행 효율을 획기적으로 개선하는 LLVM 패치가 발견됐다. 새로운 VOPD3 명령어 포맷과 V_FMA_F32 명령어 추가로, 기존 RDNA 3·4에서 이론 성능의 절반에 그쳤던 FP32 처리량이 최대 2배까지 향상될 수 있다. 2027년 중반 출시가 예상되는 RDNA 5는 TSMC 3nm(N3P) 공정을 채택하며, 엔비디아 (NVIDIA) RTX 6090과 정면 대결할 전망이다.

듀얼 이슈 실행, 왜 지금까지 절반만 작동했나

AMD는 RDNA 3 아키텍처부터 듀얼 이슈 VALU(Vector Arithmetic Logic Unit, 벡터 연산 논리 유닛) 하드웨어를 탑재해 왔다. 이 기술은 하나의 셰이더 유닛이 클록 사이클당 2개의 명령어를 동시에 처리할 수 있게 하는 것으로, 이론적으로는 FP32(단정밀도 부동소수점) 처리량을 2배로 늘릴 수 있다. 그러나 현실은 달랐다. 기존의 VOPD 명령어 포맷은 2-오퍼랜드 명령어에만 작동하는 엄격한 페어링 규칙을 가지고 있어, 컴파일러가 호환 가능한 명령어 쌍을 찾는 것이 극도로 어려웠다. 그 결과, vkpeak 같은 벤치마크 도구에서 RDNA 3·4 GPU는 공칭 피크 FP32 성능의 약 50%에 불과한 수치를 기록하는 경우가 빈번했다. 게임 엔진 개발자들도 듀얼 이슈를 활용하도록 코드를 정렬하기가 사실상 불가능했다는 평가가 지배적이었다.

VOPD3와 V_FMA_F32, RDNA 5의 핵심 변화

LLVM(Low Level Virtual Machine) 컴파일러 인프라에 최근 제출된 패치에서 AMD RDNA 5의 핵심 변화가 포착됐다. 리눅스 커널 패치 분석가 실러캔스-드림(Coelacanth-Dream)이 발견한 이 코드에는 GFX13GenD와 GFX13GenD3라는 새로운 항목이 포함되어 있으며, 이는 RDNA 5(GFX13, gfx1310)가 기존 듀얼 이슈 명령어 처리를 대폭 확장한다는 것을 의미한다.

항목	RDNA 3·4 (VOPD)	RDNA 5 (VOPD3)
오퍼랜드 수	2개	3개
FMA 명령어 지원	미지원	V_FMA_F32 지원
입력 레지스터 공유	X·Y 사이드 별도	동일 레지스터 허용
실제 FP32 활용률	약 50%	최대 100% 목표
컴파일러 최적화	극히 제한적	대폭 완화

가장 주목할 점은 V_FMA_F32(Fused Multiply-Add, 융합 곱셈-덧셈) 명령어가 듀얼 이슈 경로에 추가된 것이다. FMA는 GPU 연산에서 가장 빈번하게 사용되는 핵심 명령어로, 이것이 듀얼 이슈에서 빠져 있었다는 것 자체가 RDNA 3·4의 근본적 한계였다. RDNA 5에서는 3-오퍼랜드 명령어까지 듀얼 이슈가 가능해지면서, 컴파일러가 호환 가능한 명령어 쌍을 훨씬 쉽게 생성할 수 있게 된다.

“더 열심히가 아니라 더 똑똑하게” — 실질 성능 2배 가능성

WCCFTech의 하드웨어 리포터 무하마드 주하이르(Muhammad Zuhair)는 3월 13일 보도에서 이 변화를 “더 열심히 일하는 것이 아니라 더 똑똑하게 일하는 것(Working Smarter, Not Harder)”이라고 표현했다. AMD가 하드웨어의 절대 연산 능력을 높이지 않더라도, 이미 존재하는 듀얼 이슈 하드웨어를 실제로 활용할 수 있게 만드는 것만으로 특정 워크로드에서 최대 2배의 성능 향상이 가능하다는 분석이다. 또한 RDNA 5에서는 듀얼 이슈의 X 사이드와 Y 사이드에 동일한 입력 레지스터를 지정할 수 있도록 제한이 완화됐다. 이 변화는 컴파일러가 듀얼 이슈를 활성화할 수 있는 경우의 수를 크게 늘려, 게이밍뿐 아니라 AI·머신러닝 워크로드에서도 FP32 처리량이 이론치에 근접할 수 있게 한다.

TSMC 3nm 공정, 2027년 중반 출시 전망

RDNA 5의 하드웨어 사양도 윤곽을 드러내고 있다. 업계 유출 정보에 따르면, RDNA 5는 TSMC의 N3P(3nm 개선) 공정으로 제조되며, RDNA 4가 사용한 N4P(4nm) 대비 약 18%의 속도 향상과 36%의 전력 소비 절감이 예상된다. 출시 시기는 2027년 중반으로 점쳐지며, 엔비디아의 차세대 RTX 6090과 정면 대결하게 될 전망이다. 컴퓨트 유닛(CU) 수는 1만 2,000개를 초과할 수 있다는 루머도 있으며, CU당 코어 수가 128개로 증가할 가능성도 제기된다. 또한 유니버설 컴프레션(Universal Compression) 기술로 메모리 대역폭 사용량을 줄이고, 뉴럴 어레이(Neural Arrays)로 AI 처리 성능을, 레이디언스 코어(Radiance Cores)로 레이 트레이싱 성능을 각각 강화할 것으로 알려졌다.

소프트웨어 최적화가 승부를 가른다

이번 RDNA 5의 듀얼 이슈 개선은 GPU 경쟁의 패러다임이 하드웨어 스펙 경쟁에서 소프트웨어 최적화 경쟁으로 전환되고 있음을 보여준다. AMD는 하드웨어를 바꾸지 않고도 컴파일러 수준의 개선만으로 실질 성능을 2배까지 끌어올릴 수 있는 가능성을 제시했다. 이는 RDNA 5가 게이밍은 물론 FSR 다이아몬드(FSR Diamond) 업스케일링, AI 기반 프레임 생성 등 다양한 워크로드에서 경쟁력을 확보할 수 있는 기반이 된다. 한국의 게이머와 크리에이터에게 이 변화는 같은 가격대에서 더 높은 실질 성능을 기대할 수 있다는 의미이며, RDNA 5가 출시될 2027년까지 엔비디아의 대응도 주목할 필요가 있다.

About

AMD RDNA 5, 셰이더 유닛 활용률 2배 끌어올린다

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구

About

뉴스레터 구독하기

AMD RDNA 5, 셰이더 유닛 활용률 2배 끌어올린다

듀얼 이슈 실행, 왜 지금까지 절반만 작동했나

VOPD3와 V_FMA_F32, RDNA 5의 핵심 변화

“더 열심히가 아니라 더 똑똑하게” — 실질 성능 2배 가능성

TSMC 3nm 공정, 2027년 중반 출시 전망

소프트웨어 최적화가 승부를 가른다

관련 기사

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구