허깅페이스가 언슬로스(Unsloth)와 손잡고 초저가 AI 모델 파인튜닝 서비스를 출시했다. 시간당 0.40달러(약 580원)부터 시작하며, 훈련 속도는 2배, VRAM 사용은 60% 줄었다.

허깅페이스 (Hugging Face)가 2026년 2월 20일 오픈소스 LLM 파인튜닝 프레임워크 언슬로스와 허깅페이스 잡스(Hugging Face Jobs)의 통합을 공식 발표했다. 이 통합으로 개발자들은 CLI 명령어 한 줄로 클라우드 GPU에서 대형언어모델(LLM) 파인튜닝 작업을 제출할 수 있게 됐다. 기존에는 H100 GPU 기준 시간당 8.25달러(약 1만 1,963원)에 달하던 훈련 비용이 T4 GPU 기준 시간당 0.40달러(약 580원)로 대폭 낮아진 것이 핵심이다. 고가의 GPU 인프라 없이도 맞춤형 AI 모델을 개발할 수 있는 시대가 열린 셈이다.

언슬로스는 파이토치 (PyTorch) 모듈을 트리톤(Triton) 커널로 수동 재작성해 역전파 과정을 최적화하는 방식을 사용한다. 근사치가 아닌 정확한 연산을 수행하기 때문에 표준 QLoRA 대비 정확도 손실이 0%이다. 허깅페이스 TRL 벤치마크 결과가 이를 뒷받침한다.

모델 GPU 속도 향상 VRAM 감소
타이니 라마(Tiny Llama) 1.1B T4 (무료) 3.87배 73.8%
미스트랄(Mistral) 7B A100 40GB 1.88배 65.9%
코드 라마(Code Llama) 34B A100 40GB 1.94배 22.7%
MoE 모델 (딥시크 등) 최대 12배 35%

특히 MoE(Mixture of Experts) 아키텍처 모델의 경우 최대 12배 빠른 훈련 속도와 35% VRAM 절감이 가능하다. 딥시크(DeepSeek), GLM, 큐웬(Qwen ) 등 주요 MoE 모델을 지원한다.

허깅페이스 잡스를 통한 GPU 사용 비용은 모델 크기에 따라 4단계로 나뉜다. 10억(1B) 파라미터 미만 모델은 T4 Small 기준 시간당 0.40달러(약 580원), 10억~30억(1~3B) 파라미터는 T4 Medium 기준 시간당 0.60달러(약 870원), 30억~70억(3~7B) 파라미터는 A10G Small 기준 시간당 1.00달러(약 1,450원), 70억~130억(7~13B) 파라미터는 A10G Large 기준 시간당 3.00달러(약 4,350원)에 이용할 수 있다. 신규 사용자를 위한 무료 크레딧도 제공한다.

주요 시연 모델로 사용된 리퀴드AI(LiquidAI)의 LFM2.5-1.2B-Instruct는 1GB 미만의 메모리로 실행 가능해 스마트폰이나 노트북 등 엣지 디바이스에서의 온디바이스 배포를 겨냥했다.

이번 통합에서 주목할 점은 코딩 에이전트와의 연동이다. 클로드 코드, 코덱스, 오픈 코드 등 AI 코딩 도구가 직접 모델 훈련 작업을 제출할 수 있어, ‘AI가 AI를 훈련시키는’ 워크플로가 현실화됐다. 개발자가 코딩 에이전트에 “이 데이터셋으로 라마 모델을 파인튜닝해줘”라고 요청하면, AI가 허깅페이스 잡스를 통해 자동으로 훈련을 수행하는 구조이다.

언슬로스는 Apache-2.0 라이선스의 오픈소스 프로젝트로, 깃허브 스타 5만 2,500개 이상을 보유한 인기 프로젝트이다. 라마(Llama), 큐웬(Qwen), 젬마(Gemma), 딥시크 (DeepSeek), 미스트랄(Mistral) 등 주요 LLM을 모두 지원하며, 2018년 이후 출시된 엔비디아 GPU(GTX 1070부터 H100까지)는 물론 AMD , 인텔 GPU도 호환된다.

특히 한국어 특화 LLM 파인튜닝이 저비용으로 가능해져, 기존 오픈소스 모델에 한국어 데이터셋을 적용해 성능을 강화하는 작업이 훨씬 수월해졌다. 다만 해외 클라우드 GPU 서비스 사용 시 데이터 주권 문제와 개인정보 관련 규제 검토가 필요하며, 네트워크 지연도 고려해야 한다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version