"끊김없이 자연스러운 대화 가능" 엔비디아, 초저지연 오픈소스 모델 '네모트론 스피치 ASR' 발표

실시간 음성 인식 시스템은 그동안 사용자와 자연스럽게 대화하는 데 방해가 되는 지연 문제, 그리고 컴퓨터의 두뇌인 GPU 메모리에 주는 부담을 해결해야 하는 숙제를 안고 있었다. 이러한 상황에서 엔비디아 (NVIDIA)가 ‘패스트컨포머(FastConformer)’ 아키텍처를 기반으로 한 ‘네모트론 (Nemotron) 스피치 ASR’ 모델을 발표하며 기술 혁신을 이루어냈다. 이 모델은 정보를 미리 저장해두는 ‘캐시 기반 스트리밍 기술’을 도입해, 기존 방식의 한계를 뛰어넘고 효율성을 최대 3배나 높였다.

기존의 실시간 음성 인식 시스템은 ‘버퍼 기반 추론 방식’을 사용했는데, 이는 오디오의 겹치는 구간을 계속 반복해서 계산하는 방식이라 비효율적이었다. 마치 이미 했던 숙제를 또 하는 것과 같아서, 특히 여러 사람이 동시에 사용할 경우 반응 속도가 느려지고 GPU 메모리도 많이 차지했다. 엔비디아는 이 문제를 해결하기 위해 오디오 데이터를 딱 한 번만 처리하고, 변화된 부분만 갱신하는 똑똑한 캐시 기반 기술을 적용했다. 덕분에 불필요한 계산이 사라지고 지연 시간이 최소화되어, 사람과 대화하듯 빠른 실시간 소통이 가능해졌다.

네모트론 스피치 ASR은 기술적으로 매우 강력한 성능을 자랑한다. 패스트컨포머 기반의 인코더와 RNNT 디코더라는 구조로 이루어져 있으며, 24개의 인코더 레이어와 6억 개의 파라미터를 갖추고 있다. 성능 면에서도 압도적이다. H100 GPU를 사용할 경우 320ms 단위로 560개의 동시 작업을 처리할 수 있다. 이는 RTX A5000보다 5배, DGX B200보다 2배 더 뛰어난 성능이다. 특히 말을 문자로 바꾸는 데 걸리는 시간이 평균 0.024초(24ms)에 불과해, 0.09초(90ms)가 걸리는 L40 GPU나 0.2초(200ms) 이상 걸리는 다른 API 기반 서비스보다 훨씬 빠르다.

엔비디아는 네모트론 모델 시리즈를 통해 AI 생태계를 더욱 넓히고자 한다. 음성 인식(ASR)뿐만 아니라 문서 검색을 돕는 ‘네모트론 RAG’, 안전성을 강화한 ‘네모트론 세이프티’ 등 다양한 기능을 제공한다. 엔비디아는 누구나 쉽게 AI 시스템을 만들 수 있도록 모델과 데이터, 도구들을 대규모로 공개했다.(링크)

네모트론 스피치 ASR은 ‘모달(Modal)’과 ‘데일리(Daily)’와의 협업을 통해 실제 환경에서도 그 성능을 입증했다. 모달의 테스트에서는 H100 GPU 하나로 127명이 동시에 접속하는 상황을 3분간 처리했는데, 지연 시간이 평균 0.182초(182ms)로 매우 안정적이었다. 데일리에서는 전체 음성 서비스에 이 모델을 적용한 결과, 음성을 문자로 바꾸는 데 0.024초, 대화가 오고 가는 전체 과정도 0.9초 미만으로 처리되었다.

보쉬(Bosch), 팔란티어(Palantir), 서비스나우(ServiceNow) 같은 글로벌 기업들도 이미 네모트론을 도입해 음성 인터페이스나 다양한 AI 제품 개발에 성공적으로 활용하고 있다.

About

“끊김없이 자연스러운 대화 가능” 엔비디아, 초저지연 오픈소스 모델 ‘네모트론 스피치 ASR’ 발표

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구