엔비디아가 일본 맞춤형 합성 페르소나 600만 개를 오픈소스로 공개했다. NTT데이터는 이를 활용해 240개 시드 데이터를 13만 8,000개로 확장하고, 모델 정확도를 64%포인트 끌어올렸다.
엔비디아가 일본 인구통계·지리·문화를 반영한 600만 개 합성 페르소나 데이터셋 ‘네모트론-페르소나-재팬(Nemotron-Personas-Japan)’을 CC BY 4.0 라이선스로 공개했다. 비영어권 AI 개발의 최대 장벽인 학습 데이터 부족 문제를 합성 데이터로 돌파하겠다는 전략이다. 일본 기업 데이터의 90%가 프라이버시 규제, 보안 리스크, 라이선스 제약으로 미활용 상태인 현실에서, 이번 공개는 데이터 주권 확보의 새로운 경로를 제시한다.
일본 최대 IT서비스 기업 NTT데이터가 네모트론-페르소나-재팬을 활용한 실험 결과가 핵심이다. NTT데이터는 240개 원본 시드 데이터에서 13만 8,000개 이상의 학습 데이터를 생성했다. 300배 확장이다. 이렇게 만든 합성 데이터로 파인튜닝한 모델의 정확도는 15.3%에서 79.3%로 64%포인트 향상됐다.
| 항목 | 수치 |
|---|---|
| 합성 페르소나 수 | 600만 개 |
| 시드 데이터 확장 비율 | 240개 → 13만 8,000개 (300배) |
| 모델 정확도 향상 | 15.3% → 79.3% (64%포인트) |
| 직업 분류 수 | 1,500개 이상 |
| 총 토큰 수 | 약 14억 (페르소나 약 8억 5,000만) |
| 고유 이름 수 | 약 95만 개 |
NTT데이터 이노베이션본부 히구치 신야(Shinya Higuchi) 디렉터는 “네모트론 페르소나를 사용해 소량의 독자 데이터셋을 확장함으로써, 이용 가능한 데이터가 제한적인 경우에도 작업에 특화된 모델을 효과적으로 구축할 수 있다”고 밝혔다. 합성 데이터 학습으로 기존 모델에서 발생하던 환각(hallucination)도 완전히 제거됐으며, 비용이 많이 드는 사전학습 연장(CPT)이 불필요하다는 점도 입증됐다.
엔비디아는 네모트론-페르소나-재팬과 별도로 일본어 특화 경량 모델 ‘네모트론 나노 9B v2 재패니즈(Nemotron-Nano-9B-v2-Japanese)’도 2026년 2월 17일 공개했다. 이 모델은 10조 토큰 이상으로 사전학습됐으며, 100억 파라미터 이하 모델 중 일본 최대 다중과제 LLM 평가 플랫폼 네주미(Nejumi) 리더보드 4에서 1위를 기록했다. 총점 0.711로 큐웬(Qwen)3-8B의 0.690을 상회했다. 맘바(Mamba)-2와 트랜스포머 하이브리드 아키텍처를 채택해 비교 모델 대비 최대 6배 빠른 추론 처리량을 달성했으며, 단일 GPU에서 12만 8,000 토큰의 긴 컨텍스트를 처리할 수 있다.
이번 공개는 엔비디아의 ‘소버린(Sovereign) AI’ 전략의 일환이다. 각국의 언어·문화·인구통계를 반영한 합성 데이터셋을 제공해 자국 맞춤형 AI를 구축할 수 있도록 지원하는 움직임이다. 네모트론-페르소나-재팬은 미국 인구조사 기반의 네모트론-페르소나에 이어 발표된 두 번째 지역 특화 데이터셋이다. 데이터셋은 100만 레코드에 각 6개 페르소나로 구성되며, 레코드당 22개 필드(페르소나 6개, 컨텍스트 16개)를 포함한다. 일본 공식 인구·노동 통계에 기반해 1,500개 이상의 직업 분류와 지역별 분포를 반영했다.
한국도 일본과 동일한 비영어권 데이터 부족 문제에 직면해 있다. 한국어는 교착어 특성상 토큰화가 복잡하고, 높임법과 문화적 맥락이 영어와 크게 달라 글로벌 모델의 한국어 성능이 제한적이다. NTT데이터의 사례처럼 240개 시드 데이터만으로 13만 8,000개를 생성하고 정확도를 64%포인트 올린 결과는, 데이터 부족으로 고전하는 한국 기업에 매우 실용적인 해법을 제시한다.
한국 인구통계·지역·문화를 반영한 한국판 합성 데이터셋이 구축된다면, 국내 스타트업과 연구기관이 소량의 시드 데이터만으로도 대규모 학습 데이터를 확보할 수 있어 데이터 주권 확보와 비용 절감에 큰 도움이 될 전망이다. AI가 일본에서 100조 엔(약 6,500억 달러)의 경제적 가치를 창출할 것이라는 전망처럼, 한국에서도 합성 데이터를 통한 AI 생태계 확장이 새로운 성장 동력이 될 수 있다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


