허깅페이스가 언슬로스(Unsloth)와 손잡고 초저가 AI 모델 파인튜닝 서비스를 출시했다. 시간당 0.40달러(약 580원)부터 시작하며, 훈련 속도는 2배, VRAM 사용은 60% 줄었다.
허깅페이스(Hugging Face)가 2026년 2월 20일 오픈소스 LLM 파인튜닝 프레임워크 언슬로스와 허깅페이스 잡스(Hugging Face Jobs)의 통합을 공식 발표했다. 이 통합으로 개발자들은 CLI 명령어 한 줄로 클라우드 GPU에서 대형언어모델(LLM) 파인튜닝 작업을 제출할 수 있게 됐다. 기존에는 H100 GPU 기준 시간당 8.25달러(약 1만 1,963원)에 달하던 훈련 비용이 T4 GPU 기준 시간당 0.40달러(약 580원)로 대폭 낮아진 것이 핵심이다. 고가의 GPU 인프라 없이도 맞춤형 AI 모델을 개발할 수 있는 시대가 열린 셈이다.
언슬로스는 파이토치(PyTorch) 모듈을 트리톤(Triton) 커널로 수동 재작성해 역전파 과정을 최적화하는 방식을 사용한다. 근사치가 아닌 정확한 연산을 수행하기 때문에 표준 QLoRA 대비 정확도 손실이 0%이다. 허깅페이스 TRL 벤치마크 결과가 이를 뒷받침한다.
| 모델 | GPU | 속도 향상 | VRAM 감소 |
|---|---|---|---|
| 타이니 라마(Tiny Llama) 1.1B | T4 (무료) | 3.87배 | 73.8% |
| 미스트랄(Mistral) 7B | A100 40GB | 1.88배 | 65.9% |
| 코드 라마(Code Llama) 34B | A100 40GB | 1.94배 | 22.7% |
| MoE 모델 (딥시크 등) | – | 최대 12배 | 35% |
특히 MoE(Mixture of Experts) 아키텍처 모델의 경우 최대 12배 빠른 훈련 속도와 35% VRAM 절감이 가능하다. 딥시크(DeepSeek), GLM, 큐웬(Qwen) 등 주요 MoE 모델을 지원한다.
허깅페이스 잡스를 통한 GPU 사용 비용은 모델 크기에 따라 4단계로 나뉜다. 10억(1B) 파라미터 미만 모델은 T4 Small 기준 시간당 0.40달러(약 580원), 10억~30억(1~3B) 파라미터는 T4 Medium 기준 시간당 0.60달러(약 870원), 30억~70억(3~7B) 파라미터는 A10G Small 기준 시간당 1.00달러(약 1,450원), 70억~130억(7~13B) 파라미터는 A10G Large 기준 시간당 3.00달러(약 4,350원)에 이용할 수 있다. 신규 사용자를 위한 무료 크레딧도 제공한다.
주요 시연 모델로 사용된 리퀴드AI(LiquidAI)의 LFM2.5-1.2B-Instruct는 1GB 미만의 메모리로 실행 가능해 스마트폰이나 노트북 등 엣지 디바이스에서의 온디바이스 배포를 겨냥했다.
이번 통합에서 주목할 점은 코딩 에이전트와의 연동이다. 클로드 코드, 코덱스, 오픈 코드 등 AI 코딩 도구가 직접 모델 훈련 작업을 제출할 수 있어, ‘AI가 AI를 훈련시키는’ 워크플로가 현실화됐다. 개발자가 코딩 에이전트에 “이 데이터셋으로 라마 모델을 파인튜닝해줘”라고 요청하면, AI가 허깅페이스 잡스를 통해 자동으로 훈련을 수행하는 구조이다.
언슬로스는 Apache-2.0 라이선스의 오픈소스 프로젝트로, 깃허브 스타 5만 2,500개 이상을 보유한 인기 프로젝트이다. 라마(Llama), 큐웬(Qwen), 젬마(Gemma), 딥시크(DeepSeek), 미스트랄(Mistral) 등 주요 LLM을 모두 지원하며, 2018년 이후 출시된 엔비디아 GPU(GTX 1070부터 H100까지)는 물론 AMD, 인텔 GPU도 호환된다.
특히 한국어 특화 LLM 파인튜닝이 저비용으로 가능해져, 기존 오픈소스 모델에 한국어 데이터셋을 적용해 성능을 강화하는 작업이 훨씬 수월해졌다. 다만 해외 클라우드 GPU 서비스 사용 시 데이터 주권 문제와 개인정보 관련 규제 검토가 필요하며, 네트워크 지연도 고려해야 한다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


