허깅페이스, 트랜스포머 V5에서 눈에 띄는 변화는? 투명한 토크나이저 설계

허깅 페이스(Hugging Face )는 지난 12월 인공지능 개발 도구인 트랜스포머(Transformers) 라이브러리를 크게 개편한 v5 버전을 공개했다. 이번 업데이트에서 허깅 페이스는 파이토치 (PyTorch)를 기본 엔진으로 채택했다. 하루에만 300만 건 넘게 설치될 정도로 인기가 높은 만큼, 이번 변화는 업계의 큰 관심을 끌고 있다.

허깅 페이스의 트랜스포머는 인공지능 개발자들에게 없어서는 안 될 필수 도구이다. 2020년 v4 버전을 발표한 이후 5년 동안 꾸준히 발전해 왔으며, 이번 v5 버전은 그 기술력의 정점을 보여준다. 트랜스포머는 인공지능 모델을 만들고 학습시키며 실제 서비스에 적용하는 과정을 돕는 핵심 자원이다. 이번 업데이트로 그 중요성은 더욱 커질 것으로 보인다.

트랜스포머 v5에서 가장 눈에 띄는 변화는 ‘토크나이저 (Tokenizer)’를 다시 설계한 점이다. 토크나이저는 사람이 쓰는 글자를 인공지능 모델이 이해할 수 있도록 숫자 묶음으로 바꾸는 도구이다. 글자를 다듬고, 나누고, 규칙을 적용하는 여러 단계를 거치는데, 이제 각 단계를 개발자가 입맛에 맞게 따로 구성할 수 있다.

이번 업데이트는 토크나이저의 구조와 학습된 단어장을 분리하여 내부가 훤히 보이도록 만들었다. 과거에는 내부 작동 방식을 알기 어려운 구조였지만, 이제는 누구나 구조를 명확하게 파악하고 유연하게 고쳐 쓸 수 있도록 바꾼 것이다.

이전 v4 버전에서는 토크나이저 내부가 불투명했다. 게다가 파이썬으로 만든 느린 방식과 러스트(Rust) 언어로 만든 빠른 방식이 나뉘어 있어 코드가 복잡해지고 버그가 생기는 등 사용자들이 혼란을 겪기도 했다. 처음부터 새로운 토크나이저를 만들기도 까다로웠다. 하지만 v5에서는 뼈대와 알맹이를 분리했다. 덕분에 개발자는 먼저 모델의 뼈대를 정의한 뒤, 나중에 학습시킨 단어 데이터를 채워 넣는 방식으로 편리하게 작업할 수 있다.

주요 개선 사항은 세 가지로 요약할 수 있다. 첫째, 모델마다 하나의 파일로 정리하여 구조가 단순해졌다. 둘째, 내부 구조가 어떻게 돌아가는지 투명하게 알 수 있다. 셋째, 개발자가 원하는 대로 맞춤형 토크나이저를 학습시킬 수 있다. 허깅 페이스는 복잡했던 연결 고리들을 명확하게 정리하여 사용자가 더 쓰기 편하도록 만들었다.

파이토치 중심으로 시스템을 옮긴 이유는 사용자들이 가장 많이 쓰기 때문이며, 관리 효율성을 높이기 위한 결정이기도 하다. 그동안 함께 지원하던 텐서플로우 (TensorFlow)나 플랙스(Flax) 지원을 중단한 이유는 코드의 복잡함을 줄이기 위해서이다. 파이토치 하나에만 집중하여 성능을 최대로 끌어올리겠다는 전략이다.

About

허깅페이스, 트랜스포머 V5에서 눈에 띄는 변화는? 투명한 토크나이저 설계

구글, 제미나이 3 딥씽크 대규모 업그레이드…과학 연구의 새 지평

오픈AI, 엔비디아 아닌 세레브라스 칩으로 ‘초고속 코딩 AI’ 출시

IBM, AI 시대에 오히려 신입 채용 3배로 늘린다

About

뉴스레터 구독하기

허깅페이스, 트랜스포머 V5에서 눈에 띄는 변화는? 투명한 토크나이저 설계

관련 기사

구글, 제미나이 3 딥씽크 대규모 업그레이드…과학 연구의 새 지평

오픈AI, 엔비디아 아닌 세레브라스 칩으로 ‘초고속 코딩 AI’ 출시

IBM, AI 시대에 오히려 신입 채용 3배로 늘린다