홍콩대학교 데이터 지능 연구소(HKUDS)는 2025년 말 온디바이스에서 독립적으로 작동하는 오픈소스 AI 에이전트 모델 ‘오픈폰(OpenPhone)-3B’를 깃허브(링크)에 공개했다.
이번 프로젝트는 기존 클라우드 기반 AI가 가졌던 높은 비용과 개인정보 유출 위험을 근본적으로 해결하기 위해 추진되었다. 연구팀은 모든 사용자가 자유롭게 연구와 상업 용도로 활용할 수 있도록 MIT 라이선스를 적용해 모델 가중치를 허깅페이스에 배포했다.
오픈폰은 스마트폰의 그래픽 사용자 인터페이스(GUI)를 실시간으로 이해하는 비전-언어 모델이다. 사용자가 스크린샷과 함께 텍스트로 명령을 내리면 모델은 이를 분석하여 클릭, 스와이프, 텍스트 입력 등의 구조화된 행동을 출력한다. 30억 개의 파라미터로 설계된 이 모델은 모바일 기기의 컴퓨팅 자원을 효율적으로 사용하여 초저지연 성능을 보장한다. 이는 기존 70억에서 90억 규모의 대형 모델에 육박하는 높은 정확도를 자랑한다.
이 모델은 기기 내부에서 모든 연산을 처리하므로 별도의 API 비용이 전혀 발생하지 않는다. 외부 서버 연결 없이 작동하기 때문에 사용자의 민감한 데이터가 폰 밖으로 유출될 걱정도 없다. 연구팀은 지도 미세 조정(SFT)과 강화학습(GRPO) 기법을 결합하여 소형 모델의 추론 한계를 극복했다. 특히 전력 소모를 최소화하여 스마트폰 배터리 효율을 높이는 데 집중했다.
복잡한 작업 수행 시에는 기기와 클라우드를 지능적으로 전환하는 협업 프레임워크를 채택했다. 작업의 난이도를 실시간으로 평가하여 필요한 경우에만 클라우드 자원을 호출하는 방식이다. 또한 긴 작업 흐름을 기억하기 위해 고해상도 이미지를 텍스트로 요약하는 독자적인 메모리 메커니즘을 탑재했다. 이를 통해 오픈폰은 20단계 이상의 과거 수행 기록을 유지하며 복합적인 업무를 완수한다.
현재 오픈폰의 전체 훈련 코드와 데이터 생성 방법론은 모두 대중에 공개된 상태이다. 개발자들은 제공된 vLLM 추론 스크립트를 활용해 즉시 서비스를 구축할 수 있다. 이번 공개는 폐쇄적인 AI 에이전트 시장에 새로운 변화를 불러올 것으로 전망된다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


