인공지능(AI)이 인간의 각종 자격 시험을 손쉽게 통과하며 능력을 과시하던 시대에 제동이 걸렸다. 국제학술지 ‘네이처(링크)’는 지난 1월 29일, 전 세계 50개국 1천여 명의 전문가가 참여한 대규모 AI 학술 평가 ‘인류의 마지막 시험(HLE)’을 공식 게재했다.
이는 지난해 1월 미국 AI안전센터(CAIS)와 스케일AI가 처음 공개한 프로젝트가 1년 만에 권위 있는 학술 논문으로 승격된 것이다. 이번 발표에는 한국 연구진도 출제 위원으로 이름을 올리며 AI 한계 검증에 힘을 보탰다.
HLE는 수학, 물리학, 인문학 등 100여 개 세부 학문 분야를 아우르는 2,500개 문항으로 구성된다. 단순한 텍스트 질문을 넘어 이미지와 글을 동시에 이해해야 풀 수 있는 멀티모달 문제도 다수 포함한다. 출제 위원들은 당시 최고 성능을 자랑하던 AI 모델조차 풀지 못한 난제들만 엄선했다. 전문가들이 직접 채점해 변별력을 검증한 뒤 높은 점수를 얻은 ‘진짜 고난도’ 문제들만 최종 시험지에 남았다.
출제 비중은 수학이 41%로 가장 높다. 묘비 속 로마 비문 번역이나 벌새의 종자골 힘줄 개수를 묻는 등 고도의 전문 지식이 없으면 손도 댈 수 없는 문제들이다. 이번 논문에는 에임인텔리전스 박하언 CTO와 연세대 김대현 교수, KAIST 연구진 등 한국 연구자 6명도 저자로 참여했다.
최신 AI 모델들의 성적표는 처참했다. 구글의 ‘제미나이 3 프로’가 38.3%로 그나마 1위를 차지했으나 낙제점에 가까운 수준이다. 오픈AI의 ‘GPT-5.2’는 29.9점, ‘오푸스 4.5’는 25.8점, ‘딥시크
딥시크
목차
딥시크(DeepSeek)란 무엇인가?
딥시크의 정의 및 설립 배경
딥시크의 역사와 발전 과정
설립 및 초기 발전 (2023년)
주요 모델 출시 및 시장 영향 (2024년~현재)
딥시크의 핵심 기술 및 원리
효율적인 모델 아키텍처
지식 증류(Knowledge Distillation) 및 강화 학습
딥시크의 주요 활용 사례 및 영향
산업별 응용 사례
오픈소스 생태계 기여 및 가격 경쟁력
현재 동향 및 주요 이슈
최신 모델 및 시장 반응
개인정보 및 보안 논란
오픈소스 정의에 대한 논란
딥시크의 미래 전망
AI 기술 발전 가속화 및 비용 구조 변화
글로벌 AI 경쟁 구도 재편
윤리적, 법적 고려사항의 중요성 증대
참고 문헌
딥시크(DeepSeek)란 무엇인가?
딥시크는 2023년 설립된 중국의 인공지능(AI) 스타트업으로, 대규모 언어 모델(LLM) 개발 분야에서 혁신적인 행보를 보이며 글로벌 AI 시장의 주목을 받고 있다. 특히 제한된 자원과 낮은 비용으로도 고성능 AI 모델을 구현해내며 'AI의 스푸트니크 모멘트'를 촉발했다는 평가를 받는다. 이는 구소련이 1957년 인류 최초의 인공위성 스푸트니크를 발사하여 미국과의 우주 경쟁을 촉발했던 것처럼, 딥시크가 AI 기술의 접근성을 획기적으로 낮춰 전 세계적인 AI 개발 경쟁을 가속화할 것이라는 의미를 담고 있다.
딥시크의 정의 및 설립 배경
딥시크는 2023년 7월, 중국의 유명 헤지펀드인 하이플라이어(High-Flyer)의 공동 창립자 량원펑(Liang Wenfeng)에 의해 설립되었다. 량원펑은 금융 데이터 분석 및 알고리즘 최적화 분야에서 쌓은 깊이 있는 경험을 바탕으로 AI 연구에 뛰어들었으며, 이는 AI가 인류 지식의 경계를 확장해야 한다는 비전에서 비롯되었다. 딥시크는 초기부터 상업적 응용보다는 기초 기술 개발과 오픈소스 전략을 지향하며, AI 기술의 민주화를 목표로 삼고 있다. 량원펑은 AI 기술이 소수 기업의 전유물이 되어서는 안 되며, 전 세계 개발자들이 자유롭게 접근하고 활용할 수 있도록 해야 한다고 강조해왔다. 이러한 철학은 딥시크가 고성능 모델을 저렴한 비용으로 제공하고 오픈소스로 공개하는 전략의 근간이 된다.
딥시크의 역사와 발전 과정
딥시크는 2023년 설립 이후 짧은 기간 동안 여러 혁신적인 AI 모델을 출시하며 빠르게 성장했으며, 이는 AI 산업 내에서 그들의 영향력을 빠르게 확대하는 계기가 되었다.
설립 및 초기 발전 (2023년)
딥시크의 설립자 량원펑은 이미 2015년 하이플라이어를 공동 설립하며 금융 분야에서 성공을 거두었다. 그는 AI 기술의 잠재력을 일찍이 인지하고 2021년 대규모 GPU 클러스터를 구축하는 등 AI 연구를 위한 기반을 마련했다. 이러한 준비 과정을 거쳐 2023년 5월, 딥시크 연구실을 하이플라이어로부터 독립 법인으로 분사시켰다. 그리고 같은 해 7월, 딥시크를 공식 설립하며 본격적인 AI 모델 개발에 착수했다. 설립 직후인 2023년 11월, 딥시크는 코딩 특화 대규모 언어 모델인 'DeepSeek Coder'와 범용 대규모 언어 모델 'DeepSeek-LLM' 시리즈를 공개하며 AI 커뮤니티에 첫선을 보였다. DeepSeek Coder는 코딩 작업의 효율성을 높이는 데 특화된 성능을 보여주었으며, DeepSeek-LLM은 다양한 자연어 처리 태스크에서 높은 성능을 발휘하여 딥시크의 기술력을 입증했다.
주요 모델 출시 및 시장 영향 (2024년~현재)
2024년은 딥시크가 글로벌 AI 시장에서 존재감을 확고히 한 해였다. 딥시크는 2024년 2월, 수학 문제 해결에 특화된 'DeepSeek Math'를 출시하여 복잡한 수학적 추론 능력을 선보였다. 이어 2024년 5월에는 성능 향상과 비용 절감에 중점을 둔 차세대 범용 대규모 언어 모델인 'DeepSeek-V2'를 공개했다. DeepSeek-V2는 특히 효율적인 아키텍처를 통해 이전 모델 대비 뛰어난 성능과 경제성을 동시에 달성하며 주목받았다.
딥시크의 가장 큰 전환점은 2025년 1월에 출시된 추론 모델 'DeepSeek-R1'이었다. DeepSeek-R1은 OpenAI의 GPT-4o 및 o1과 비교할 만한 고성능을 훨씬 낮은 비용으로 달성하며 글로벌 AI 시장에 큰 충격을 주었다. DeepSeek-R1의 추론 능력은 복잡한 문제 해결, 논리적 사고, 창의적 글쓰기 등 다양한 분야에서 최고 수준의 모델들과 어깨를 나란히 했다. 특히, OpenAI의 모델 대비 최대 1/30 수준의 저렴한 비용으로 서비스될 수 있다는 점은 AI 기술의 접근성을 획기적으로 높이는 계기가 되었다. 이러한 가격 경쟁력과 성능은 'AI의 스푸트니크 모멘트'라는 평가를 더욱 공고히 했으며, 기존 AI 시장의 판도를 뒤흔들 것이라는 전망을 낳았다. 일부 분석가들은 딥시크의 등장이 엔비디아와 같은 AI 반도체 기업의 주가에도 영향을 미칠 수 있다고 언급하며, AI 인프라 비용에 대한 재평가를 촉발하기도 했다.
딥시크의 핵심 기술 및 원리
딥시크는 효율성과 개방성을 바탕으로 고성능 AI 모델을 개발하며 AI 대중화에 기여하고 있다. 이들의 기술적 접근 방식은 기존의 대규모 모델 개발 방식과는 차별화된 지점을 갖는다.
효율적인 모델 아키텍처
딥시크는 '전문가 혼합(Mixture of Experts, MoE)' 아키텍처를 적극적으로 활용하여 연산 효율성을 극대화한다. MoE는 하나의 거대한 모델 대신 여러 개의 작은 '전문가' 모델들을 병렬로 배치하고, 입력 데이터의 특성에 따라 가장 적합한 전문가 모델만 활성화하여 연산을 수행하는 방식이다. 이는 마치 특정 분야의 문제가 발생했을 때 모든 전문가가 동시에 나서기보다는 해당 분야의 전문가 한두 명만 문제를 해결하는 것과 유사하다. 이 방식은 전체 모델을 활성화할 때보다 훨씬 적은 계산 자원을 사용하면서도 고정밀 예측을 가능하게 하여, 계산 비용을 획기적으로 억제한다. 예를 들어, DeepSeek-V2는 2360억 개의 매개변수를 가지고 있지만, MoE 아키텍처 덕분에 실제 활성화되는 매개변수는 210억 개에 불과하여 GPT-4o보다 훨씬 적은 컴퓨팅 자원을 사용한다.
또한, 딥시크는 FP8(8비트 부동소수점) 저정밀도 연산의 전략적 활용과 최적화된 GPU 클러스터 설계를 통해 하드웨어 제약을 극복하고 비용 효율적인 모델 훈련을 실현했다. FP8 연산은 데이터 처리 시 필요한 메모리와 계산량을 줄여주어, 대규모 모델을 훈련하는 데 드는 막대한 비용과 시간을 절감하는 데 기여한다. 이러한 기술적 최적화는 딥시크가 제한된 자원으로도 고성능 AI 모델을 개발할 수 있었던 핵심 동력이다.
지식 증류(Knowledge Distillation) 및 강화 학습
딥시크는 대규모 모델이 학습한 방대한 지식을 소형 모델로 압축하는 '지식 증류(Knowledge Distillation)' 기술을 활용하여 모델의 경량화 및 고속화를 달성한다. 지식 증류는 '교사(Teacher) 모델'이라 불리는 크고 복잡한 고성능 모델이 학습한 결과를 '학생(Student) 모델'이라 불리는 작고 효율적인 모델에게 가르치는 과정이다. 이를 통해 학생 모델은 교사 모델의 성능에 근접하면서도 훨씬 적은 컴퓨팅 자원으로 구동될 수 있어, 다양한 환경에서 효율적으로 배포될 수 있다.
또한, 딥시크는 인간의 평가 없이 AI 스스로 보상 시스템을 구축하고 학습하는 강화 학습(Reinforcement Learning, RL) 방식을 채택하여 모델의 추론 능력을 강화하고 인간의 편향을 최소화한다. 특히, 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)을 넘어, AI 자체의 피드백을 활용하는 강화 학습(Reinforcement Learning from AI Feedback, RLAIF) 기술을 적극적으로 도입하여 모델이 더욱 객관적이고 일관된 방식으로 학습할 수 있도록 한다. 이는 모델이 복잡한 문제에 대해 더 깊이 있는 추론을 수행하고, 인간의 주관적인 판단이 개입될 수 있는 부분을 줄여 모델의 견고성을 높이는 데 기여한다.
딥시크의 주요 활용 사례 및 영향
딥시크의 모델은 다양한 산업 분야에서 활용되며 AI 기술의 민주화에 기여하고 있다. 그들의 오픈소스 전략과 가격 경쟁력은 AI 기술의 확산에 중요한 역할을 한다.
산업별 응용 사례
딥시크 모델은 텍스트 생성, 데이터 분석, 번역, 요약 등 다양한 자연어 처리 태스크에 활용될 수 있다. 이러한 기능은 여러 산업 분야에서 효율성을 높이는 데 기여한다. 예를 들어, 챗봇 및 고객 지원 자동화 시스템에 딥시크 모델을 적용하여 고객 응대 효율을 높이고, 금융 사기 탐지 시스템에 활용하여 이상 거래를 신속하게 감지할 수 있다. 또한, 학생들의 학습 수준에 맞춰 맞춤형 콘텐츠를 제공하는 교육 시스템이나, 복잡한 법률 문서를 분석하고 요약하는 법률 서비스에도 응용될 수 있다.
특히, 딥시크의 모델은 실제 산업 현장에서의 적용 사례를 통해 그 가치를 입증하고 있다. 닛산의 중국 합작사인 둥펑 닛산(Dongfeng Nissan)은 딥시크 R1 모델을 자사의 차량에 적용하여 지능형 기능을 강화했다. 이는 차량 내 음성 비서, 내비게이션, 인포테인먼트 시스템 등에서 더욱 자연스럽고 정확한 상호작용을 가능하게 하여 운전자 경험을 향상시키는 데 기여한다. 이러한 사례는 딥시크 모델이 단순한 연구 단계를 넘어 실제 제품과 서비스에 통합되어 가치를 창출하고 있음을 보여준다.
오픈소스 생태계 기여 및 가격 경쟁력
딥시크는 고성능 모델을 오픈소스로 공개하여 전 세계 개발자들이 자유롭게 모델을 수정하고 개선하며 새로운 응용 프로그램을 개발할 수 있도록 함으로써 AI 기술 생태계 확장에 크게 기여하고 있다. 이는 AI 기술이 특정 기업의 독점적인 자산이 되는 것을 방지하고, 전 세계적인 AI 혁신을 촉진하는 중요한 요소로 작용한다. 개발자들은 딥시크의 오픈소스 모델을 기반으로 자신들의 아이디어를 구현하고, 이를 다시 커뮤니티와 공유함으로써 기술 발전에 선순환을 만들어낸다.
또한, 딥시크는 OpenAI와 같은 선도 기업 대비 1/30 수준의 저렴한 가격 경쟁력을 내세워 AI 서비스 비용 장벽을 낮추고 AI 대중화를 이끌고 있다. 이러한 파격적인 가격 정책은 중소기업이나 스타트업, 개인 개발자들도 고성능 AI 모델에 접근하고 활용할 수 있도록 하여 AI 기술 도입의 문턱을 크게 낮추었다. 이는 AI 기술이 소수의 대기업에 국한되지 않고, 더 넓은 범위의 사용자들에게 확산될 수 있는 기반을 마련하며 'AI의 민주화'를 실현하는 데 중요한 역할을 한다.
현재 동향 및 주요 이슈
딥시크는 혁신적인 기술력으로 주목받는 동시에 여러 논란에 직면해 있으며, 이는 AI 산업 전반에 걸쳐 중요한 시사점을 던지고 있다.
최신 모델 및 시장 반응
2025년 1월 출시된 'DeepSeek-R1'은 저비용 고성능이라는 파격적인 특징으로 인해 엔비디아 주가 하락을 유발할 수 있다는 분석이 나오는 등 시장에 큰 파장을 일으켰다. 이는 AI 모델 훈련 및 추론에 필요한 하드웨어 비용에 대한 패러다임 전환을 시사하며, AI 인프라 시장에도 영향을 미칠 수 있음을 보여주었다. 이후에도 딥시크는 'DeepSeek-OCR'과 같은 멀티모달 AI 기술을 공개하며 발전을 이어가고 있다. DeepSeek-OCR은 이미지 내 텍스트 인식 및 이해에 특화된 모델로, 문서 자동화, 데이터 추출 등 다양한 분야에서 활용될 잠재력을 가지고 있다.
그러나 일부 전문가들은 딥시크의 훈련 비용 공개에 대한 의혹을 제기하며, 그들의 주장하는 비용 효율성에 대한 추가적인 검증이 필요하다고 지적한다. 또한, 후속 모델들에 대한 시장의 반응은 DeepSeek-R1만큼 뜨겁지 않다는 분석도 존재하며, 딥시크가 지속적으로 혁신적인 모델을 선보이며 시장의 기대를 충족시킬 수 있을지에 대한 관심이 모이고 있다.
개인정보 및 보안 논란
딥시크는 중국 기업이라는 특성상 개인정보 보호 및 국가 안보 문제로 인해 여러 국가에서 사용 금지 조치를 받거나 사용에 대한 우려가 제기되고 있다. 특히, 사용자 정보가 중국 국영 통신사 및 바이트댄스(ByteDance)와 같은 중국 기업으로 전송될 수 있다는 의혹이 제기되어, 민감한 데이터를 다루는 기업이나 기관에서는 딥시크 모델 사용에 신중을 기하고 있다. 이러한 우려는 중국 정부의 데이터 통제 정책과 관련하여 발생하며, 해외 사용자들 사이에서 데이터 주권 및 개인정보 보호에 대한 불신을 야기한다.
또한, 딥시크 모델의 안전 필터를 우회하여 유해 콘텐츠(예: 혐오 발언, 허위 정보, 불법적인 내용)를 생성할 수 있다는 보안 취약점도 제기되었다. 이는 AI 모델의 책임 있는 개발 및 배포에 대한 중요한 과제를 제기하며, 딥시크를 포함한 모든 AI 개발사들이 해결해야 할 문제로 부상하고 있다.
오픈소스 정의에 대한 논란
딥시크는 모델의 가중치(weights)와 아키텍처(architecture)를 공개했지만, 모델 학습에 사용된 코드와 데이터셋은 비공개로 유지하고 있다. 이러한 방식은 '오픈소스'의 정의에 대한 논란인 '오픈워싱(Openwashing)'을 촉발하기도 했다. 오픈워싱은 기업이 실제로는 오픈소스 원칙을 완전히 따르지 않으면서도 마케팅 목적으로 '오픈소스'라는 용어를 사용하는 행위를 비판하는 용어이다.
진정한 오픈소스는 코드뿐만 아니라 데이터셋, 훈련 과정 등 모델 개발의 모든 요소가 투명하게 공개되어야 한다는 주장이 많다. 딥시크의 경우, 핵심적인 학습 데이터와 코드가 비공개로 유지됨으로써, 개발자들이 모델의 작동 방식과 잠재적 편향을 완전히 이해하고 검증하기 어렵다는 비판이 제기된다. 이러한 논란은 AI 시대에 '오픈소스'의 의미와 범위에 대한 재정의가 필요함을 시사하며, AI 기술의 투명성과 책임성에 대한 사회적 논의를 촉진하고 있다.
딥시크의 미래 전망
딥시크는 AI 산업의 판도를 변화시키며 미래 AI 기술 발전에 중요한 영향을 미칠 것으로 예상된다. 그들의 혁신적인 접근 방식은 AI 기술의 발전 방향과 글로벌 경쟁 구도, 그리고 윤리적 고려사항에 깊은 영향을 미칠 것이다.
AI 기술 발전 가속화 및 비용 구조 변화
딥시크의 혁신적인 저비용 고효율 모델 개발은 AI 기술 발전을 가속화하고 AI 산업의 비용 구조에 큰 변화를 가져올 것이다. 기존에는 고성능 AI 모델 개발 및 활용에 막대한 자본과 컴퓨팅 자원이 필요했지만, 딥시크의 MoE 아키텍처, FP8 연산, 지식 증류 등의 기술은 이러한 장벽을 크게 낮추었다. 이는 더 많은 기업과 개발자가 AI 기술에 접근하고 활용할 수 있도록 하여 AI 대중화를 촉진할 것으로 기대된다. 결과적으로, AI 기술은 소수의 빅테크 기업을 넘어 다양한 규모의 조직과 개인에게 확산될 것이며, 이는 새로운 AI 기반 서비스와 제품의 등장을 가속화할 것이다. AI 기술의 '스푸트니크 모멘트'는 이제 막 시작된 것으로 볼 수 있다.
글로벌 AI 경쟁 구도 재편
딥시크의 등장은 AI 패권 경쟁이 다극화되고 있음을 시사하며, 기존 빅테크 기업들의 AI 전략 변화를 유도하고 있다. 미국 중심의 AI 시장에 중국발 혁신 기업이 강력한 도전자로 등장함으로써, AI 기술 개발 경쟁은 더욱 치열해질 전망이다. 특히, 딥시크와 같은 효율적인 AI 모델 개발 방식은 미국의 반도체 수출 규제 속에서도 중국 AI 기업의 경쟁력을 높이는 요인이 될 수 있다. 제한된 고성능 반도체 자원 속에서도 소프트웨어 및 아키텍처 최적화를 통해 성능을 극대화하는 딥시크의 전략은 중국 AI 산업의 생존 및 발전에 중요한 역할을 할 것으로 보인다. 이는 또한 다른 국가들에게도 AI 기술 개발에 있어 효율성과 자율성을 추구하는 방향으로의 전환을 촉구할 수 있다.
윤리적, 법적 고려사항의 중요성 증대
딥시크를 둘러싼 개인정보 보호, 데이터 보안, 검열, 그리고 오픈소스 정의에 대한 논란은 AI 기술 개발 및 활용에 있어 윤리적, 법적 고려사항의 중요성을 더욱 부각시킬 것이다. AI 기술이 사회 전반에 미치는 영향이 커질수록, 기술 개발의 투명성, 데이터의 책임 있는 사용, 그리고 잠재적 위험에 대한 안전 장치 마련이 필수적이다. 딥시크 사례는 AI 기술의 발전과 함께 사회적 책임 및 규제 프레임워크 마련의 필요성을 강조하며, 국제적인 협력을 통해 AI 윤리 기준을 정립하고 법적 제도를 구축하는 것이 시급함을 보여준다. 이는 AI 기술이 인류에게 긍정적인 영향을 미치면서도 잠재적인 부작용을 최소화하기 위한 지속적인 노력이 필요함을 의미한다.
참고 문헌
DeepSeek-LLM: A Strong, Open-Source, and Efficient MoE Language Model. arXiv preprint arXiv:2311.03429. (2023).
DeepSeek Coder: An Open-Source Coding LLM. DeepSeek AI. (2023).
DeepSeek-V2: A Strong, Open-Source, and Efficient MoE Language Model. DeepSeek AI. (2024).
Chinese AI startup DeepSeek challenges OpenAI with low-cost, high-performance models. South China Morning Post. (2025).
DeepSeek-R1's low cost could impact Nvidia, say analysts. TechCrunch. (2025).
DeepSeek-V2 Technical Report. DeepSeek AI. (2024).
Dongfeng Nissan integrates DeepSeek-R1 into vehicles for enhanced intelligent features. Xinhua News Agency. (2025).
Concerns raised over DeepSeek's data privacy practices and links to Chinese state-owned entities. Reuters. (2024).
3.2’는 21.8점에 그쳤다. 국내 파운데이션 모델들도 고전을 면치 못했다. 텍스트 평가 기준으로 LG AI연구원의 ‘K-엑시원’은 13.6점, 업스테이지
업스테이지
업스테이지(Upstage)는 한국에서 설립된 인공지능(AI) 기업으로, 기업 환경에서 활용 가능한 생성형 AI 및 문서 인공지능(문서 파싱·추출) 기술을 중심으로 제품과 서비스를 제공한다. 자체 대규모 언어 모델(LLM) 계열인 ‘솔라(Solar)’를 발표하며 모델·플랫폼·솔루션을 함께 구축하는 전략을 전개해 왔다.
목차
개요와 역사
지배구조와 리더십
주요 사업 및 특징
LLM 모델: 솔라(Solar) 라인업과 기술 성격
매출 성장과 투자 동향, 기업문화
1. 개요와 역사
업스테이지는 2020년 10월 설립된 한국계 AI 스타트업으로, 기업용 AI 제품과 솔루션을 통해 업무 자동화 및 의사결정 지원을 목표로 한다. 초기에는 문서 처리와 같은 실무형 AI 문제를 공략해 왔으며, 이후 자체 LLM을 중심으로 생성형 AI 기능을 확장하는 흐름을 보였다.
회사 연혁에서 두드러지는 특징은 (1) 문서 처리 기술을 제품화해 산업별 도입 사례를 확대하고, (2) 파운데이션 모델급 LLM을 자체 개발해 엔터프라이즈 환경에 최적화된 생성형 AI를 제공하려는 전략을 동시에 추진해 왔다는 점이다.
2. 지배구조와 리더십
업스테이지는 주식회사 형태의 비상장 기업으로 알려져 있으며, 대표이사(CEO) 체계를 중심으로 경영이 이루어진다. 공개된 기업 정보 및 공식 자료에서 대표자로 김성훈이 확인된다.
비상장 스타트업의 지배구조는 일반적으로 창업자·경영진의 의사결정과 함께, 투자 유치 과정에서 참여한 재무적·전략적 투자자의 영향(이사회 참여, 주요 의사결정에 대한 보호조항 등)이 결합되는 방식으로 형성된다. 업스테이지의 경우 대규모 투자 유치와 함께 글로벌 기업 및 정책금융 성격의 투자기관이 참여한 사실이 공개되어 있으며, 이는 연구개발과 글로벌 사업 확장에 필요한 자금·인프라·사업 네트워크를 확보하는 방향의 거버넌스 구조로 해석될 수 있다.
3. 주요 사업 및 특징
3.1 문서 AI: Document Parse 중심의 실무형 자동화
업스테이지가 강조해 온 축 중 하나는 문서 처리 자동화다. 기업 문서는 양식이 다양하고 표·도형·주석 등 구조가 복잡해 단순 OCR만으로는 업무 자동화 수준의 정밀한 추출이 어렵다. 업스테이지는 문서 파싱을 통해 문서의 구조를 이해하고 필요한 정보를 정형 데이터로 변환하는 방향의 솔루션을 제시해 왔다. 공식 소개에서는 금융·법률·헬스케어 등 전문 산업뿐 아니라 제조·미디어 등 다양한 산업에서 문서 파싱 도입 수요가 증가하고 있음을 언급한다.
3.2 엔터프라이즈 생성형 AI: 모델·플랫폼·컨설팅 결합
업스테이지는 기업 고객의 AI 전환을 위해 모델과 시스템 구축, 적용 컨설팅을 함께 제공해 왔다고 밝히고 있다. 이는 단순 API 제공에 그치지 않고 데이터·보안·업무 프로세스 통합까지 포함하는 엔터프라이즈 AI 도입 수요를 겨냥한 접근으로 볼 수 있다.
3.3 글로벌 협력과 클라우드 기반 확장
공식 발표에 따르면 업스테이지는 AWS와 전략적 협력을 체결하고, AWS 인프라를 활용해 모델 고도화 및 클라우드 기반 모델 공급 확대를 추진해 왔다. 이러한 방향은 엔터프라이즈 고객이 요구하는 확장성, 운영 안정성, 배포 편의성을 확보하는 데 목적이 있다.
4. LLM 모델: 솔라(Solar) 라인업과 기술 성격
4.1 ‘솔라’의 목표: 실무 적용과 효율성
업스테이지의 LLM 전략은 “매우 큰 모델만이 해답”이라는 접근보다는, 기업 업무에 필요한 추론·도구 활용·다국어 처리 능력을 효율적인 규모에서 달성하는 방향으로 설명된다. 이는 비용·지연시간·온프레미스 또는 프라이빗 배포 요구가 큰 기업 환경에서 특히 중요하게 다뤄지는 요소다.
4.2 Solar Pro 2: 31B 파라미터 기반의 추론·툴 활용 강조
업스테이지는 Solar Pro 2를 차세대 언어 모델로 소개하며 31B(약 310억) 파라미터 규모, 다국어 처리, 고도화된 추론, 기업 환경에 최적화된 도구 활용 역량을 주요 특징으로 제시한다. 또한 미리보기(Preview) 안내에서는 31B 규모의 컴팩트한 모델이 더 큰 급의 모델과 비교될 만한 성능을 보이는 것을 강조한다. 이 모델은 단순 질의응답을 넘어, 작업 수행을 위한 도구 연동과 에이전트형 사용 시나리오를 염두에 둔 성격으로 설명된다.
4.3 모델 활용 가이드와 생태계
업스테이지는 프롬프트 활용 가이드 등 운영 문서를 통해 모델을 업무에 적용하는 방법론을 제시하고 있다. 엔터프라이즈 환경에서는 모델 성능 자체뿐 아니라 입력 설계(프롬프트), 안전한 도구 호출, 데이터 접근 통제 같은 운영 체계가 품질과 리스크를 좌우하기 때문에, 모델 제공과 함께 적용 가이드가 중요하게 다뤄진다.
5. 매출 성장과 투자 동향, 기업문화
5.1 매출 성장: 공개 재무 기반의 추세
채용·기업정보 서비스에 인용된 재무 데이터(출처: NICE평가정보)에서는 업스테이지의 2024년 매출액이 약 138.9억 원으로 제시되며, 전년 대비 성장률 수치도 함께 제공된다. 같은 자료에서 2021~2024년 매출 추이가 제시되어 있어, 제품·프로젝트 기반 매출 확대 흐름을 확인할 수 있다. 다만 스타트업의 재무는 투자에 따른 비용 증가(연구개발·인력·인프라)와 함께 해석할 필요가 있어, 매출 성장과 손익은 분리해 보는 것이 일반적이다.
5.2 투자 유치와 자금 조달: 대형 라운드와 전략적 투자자
업스테이지는 2021년 시리즈 A(316억 원), 2024년 시리즈 B(1,000억 원) 등 대규모 투자를 유치했으며, 2025년에는 시리즈 B 브릿지 라운드에서 620억 원을 추가 유치했다고 공식 발표했다. 같은 발표에서 AWS와의 전략적 협력, 아마존의 소수 지분 투자, 누적 투자금의 확대 등이 언급된다. 이는 LLM 고도화, 제품군 강화, 글로벌 시장 공략을 위한 재원 마련과 실행 파트너십을 결합한 형태로 볼 수 있다.
5.3 기업문화: 자율·신뢰 기반의 원격 협업 지향
업스테이지는 채용 및 커리어 관련 공식 콘텐츠에서 자율과 신뢰를 기반으로 한 업무 방식, 그리고 원격 근무가 가능한 형태의 근무 운영(AOEBT)을 소개한다. 또한 조직문화의 기준으로 ‘Upstage Way’를 언급하며, 채용 페이지를 통해 관련 내용을 확인할 수 있도록 안내하고 있다. 이러한 문화적 지향은 고숙련 연구·개발 인력 중심의 기술 기업에서 흔히 강조되는 운영 원칙(자율성, 높은 채용 기준, 피드백 기반 협업)과 연결된다.
출처
https://thevc.kr/upstage
https://upstage.ai/news/upstage-series-b-bridge-funding
https://upstage.ai/blog/ko/solar-pro-2-launch
https://upstage.ai/blog/ko/solar-pro-2-preview-introduction
https://upstage.ai/blog/ko/solar-pro-2-prompting-handbook
https://upstage.ai/blog/ko/introduce-upstage-document-parse
https://www.saramin.co.kr/zf_user/company-info/view-inner-finance/csn/S2RCTlh2UkpuMlNVYWZXWU9hRmltZz09/company_nm/%28%EC%A3%BC%29%EC%97%85%EC%8A%A4%ED%85%8C%EC%9D%B4%EC%A7%80
https://upstage.ai/careers/careertalk-sep25
https://wowtale.net/2025/08/20/245689/
https://www.donga.com/news/It/article/all/20240702/125728484/1
‘솔라
Solar(언어 모델)
Solar는 국내 AI 기업 업스테이지(Upstage)가 개발·공개한 언어 모델(LLM) 시리즈이다. 명칭은 “Specialized and Optimized LLM and Applications with Reliability”의 약자(SOLAR)로 알려져 있으며, 비교적 효율적인 규모의 모델부터 대규모 공개 가중치 모델까지 라인업을 확장해 왔다. Solar 계열은 한국어를 포함한 다국어 처리와 실사용(추론, 지시 이행, 도구 활용) 성능을 강조하는 흐름 속에서 공개 모델·API·기술 보고서 형태로 생태계를 구축해 왔다.
목차
개요와 개발 배경
핵심 특징
모델 라인업
Solar Open 100B 도용 의혹 및 공개 검증
관련 문서 및 참고 자료
1. 개요와 개발 배경
업스테이지는 Solar를 “특정 업무에 특화(Specialized)되고, 비용·인프라 관점에서 최적화(Optimized)된 LLM과 그 응용(Application)을 신뢰성(Reliability) 있게 제공”한다는 방향으로 소개해 왔다. Solar 계열은 오픈 모델 공개(허깅페이스 등), 기술 문서(논문·테크니컬 리포트), 그리고 Upstage Console을 통한 API 제공을 통해 접근성을 높이는 전략을 취해 왔다. 또한 2023년 이후 오픈 LLM 성능 경쟁(리더보드 평가)이 대중화되면서, Solar는 비교적 작은 규모의 모델이 큰 모델과 경쟁할 수 있다는 “효율 중심”의 메시지를 함께 내세웠다.
Solar는 단일 제품명이 아니라 일련의 모델·배포 형태를 포괄하는 브랜드로 사용된다. 초기 공개 모델로는 10.7B급(SOLAR-10.7B)이 널리 알려졌고, 이후 단일 GPU 최적화를 강조한 Solar Pro Preview(22B) 및 추론 기능을 전면에 둔 Solar Pro 2(31B) 등이 소개되었다. 2025년 말~2026년 초에는 100B급 공개 가중치 모델인 Solar Open 100B(총 102B, MoE)가 공개되며 라인업이 확장되었다.
2. 핵심 특징
2.1 효율 중심의 스케일링과 단일 GPU 지향
Solar 계열은 “크기 자체의 확장”보다는 제한된 자원에서의 성능 극대화를 주요 가치로 제시해 왔다. 예를 들어 SOLAR 10.7B는 Depth Up-Scaling(DUS)라는 스케일링 방법을 제안하는 논문과 함께 공개되었고, Solar Pro Preview는 22B 규모임에도 단일 GPU 배포를 목표로 최적화되었다고 소개되었다. 이러한 방향성은 기업 환경에서 GPU 비용과 운영 복잡도를 줄이면서도 실용적인 성능을 얻고자 하는 요구와 맞물린다.
2.2 지시 이행·추론·도구 활용을 포함한 “실사용” 성능 강조
Solar Pro 2 계열 소개에서는 단순 대화형 응답을 넘어, 복잡한 질문에 대한 추론(reasoning)과 도구 활용(tool use) 능력을 전면에 배치한다. 이는 LLM이 문장 생성 모델을 넘어 “업무 자동화·에이전트형 활용”으로 확장되는 흐름과 연결된다. Solar Open(100B) 모델 카드에서도 에이전트 기능(도구 호출, 추론 파서 등)을 염두에 둔 구성과 예시가 포함되어, 모델 자체의 성능뿐 아니라 실제 서비스 통합을 고려한 배포 경험을 강조한다.
2.3 한국어를 포함한 다국어 및 도메인 성능 지향
Solar Open 100B 테크니컬 리포트는 한국어처럼 상대적으로 데이터가 부족한 언어(underserved languages)에서 경쟁력 있는 모델을 만들기 위한 데이터 구성·학습 방법론을 주요 주제로 다룬다. 모델 카드에는 한국어 벤치마크와 영어 벤치마크 결과가 함께 제시되며, 한국어 성능을 중요한 차별점으로 내세운다. Solar Pro 2 또한 한국어 성능을 반복적으로 강조하는 공개 자료가 존재한다.
2.4 공개 모델·API·문서 중심의 생태계 구축
Solar는 오픈 모델 공개와 함께 API 베타 제공, 콘솔 문서화, 기술 보고서 공개를 병행해 왔다. 이는 개발자들이 “즉시 사용 가능한 API”와 “재현 가능한 기술 문서”를 동시에 요구하는 흐름에 대응한 형태로 볼 수 있다. 특히 Solar Open 100B는 허깅페이스 모델 카드에 라이선스(가중치와 코드의 적용 범위 분리), 하드웨어 요구사항, 추론 실행 예시, 관련 리포트 링크가 포함되어 있어 공개 모델로서의 사용성(문서 품질)을 강조한다.
3. 모델 라인업
3.1 Solar Mini(대중적으로 SOLAR 10.7B 계열로 인식)
Solar Mini라는 명칭은 Solar 라인업에서 경량·효율 계열을 지칭하는 맥락에서 사용되며, 공개적으로 널리 알려진 대표 모델은 SOLAR-10.7B 및 SOLAR-10.7B-Instruct 계열이다. 해당 모델은 10.7B 파라미터 규모로 소개되었고, DUS(Depth Up-Scaling) 방법과 함께 공개되었다. Instruct 변형은 지시 이행(instruction-following)에 최적화된 버전으로 제공되어, 일반적인 챗봇형 사용과 태스크 지향 프롬프트에 활용되는 경우가 많다.
3.2 Solar Pro(Preview) 및 Solar Pro 2
Solar Pro Preview는 Solar 시리즈의 플래그십(당시 기준)으로 소개되었으며, 22B 파라미터 규모와 “단일 GPU 배포”를 목표로 한 최적화가 특징으로 제시되었다. 업스테이지는 이를 뒷받침하는 요소로 DUS 및 데이터 레시피를 언급하며, 비교적 작은 규모에서 강한 성능을 달성하는 접근을 강조했다.
Solar Pro 2는 이후 공개된 “프론티어급” 모델로 소개되며, 31B 규모에서 추론 기능과 다국어 성능, 도구 활용 능력을 강화한 방향으로 설명된다. 업스테이지 블로그 자료에서는 한국어 벤치마크에서 강점을 보였다는 주장과 함께, Upstage Console을 통한 체험 및 API 연동 가이드가 제공된다.
3.3 Solar Open 100B(총 102B, MoE)
Solar Open 100B는 업스테이지가 공개한 대규모 공개 가중치(open-weight) 모델로, 모델 카드 기준 총 102.6B 파라미터의 Mixture-of-Experts(MoE) 아키텍처를 사용하며 토큰당 활성 파라미터는 12B로 제시된다. 또한 128k 컨텍스트 길이, 19.7T 토큰 규모의 사전학습, 학습 하드웨어(NVIDIA B200) 등의 정보가 모델 카드에 포함되어 있다. 라이선스는 모델 가중치와 코드에 서로 다른 조건이 적용되는 형태로 안내되며(가중치: Upstage Solar License, 코드: Apache 2.0), 기술 보고서(arXiv)와 프로젝트 페이지 링크가 함께 제공된다.
4. Solar Open 100B 도용 의혹 및 공개 검증
2026년 1월 초, Solar Open 100B를 두고 “중국계 모델(GLM 계열)과의 유사성”을 근거로 한 도용(표절) 의혹이 제기되며 논란이 확산되었다. 보도에 따르면 의혹 제기는 주로 특정 신경망 구성 요소(예: LayerNorm 가중치)의 유사도 분석 결과를 근거로 제시되었고, 업스테이지는 Solar Open 100B가 ‘from scratch’로 학습되었다는 입장을 부인하지 않고 정면으로 반박했다.
업스테이지는 논란 대응 과정에서 공개 검증(현장·온라인 형태)을 진행하고 학습 로그·내부 데이터 등을 제시했다는 보도가 이어졌다. 이후 의혹을 제기한 측에서 “표절로 단정한 것이 성급했다”는 취지의 공개 사과가 나왔다는 영문권 보도도 존재한다. 다만 이러한 일련의 과정은 “대규모 모델의 독자 개발 여부를 외부에서 어떻게 검증할 것인가”라는 산업적 쟁점을 함께 드러냈다. 즉, 모델 가중치 유사성 분석이 어느 수준에서 결정적 근거가 되는지, 표준화된 아키텍처 요소가 많은 현대 LLM에서 단일 지표의 해석이 얼마나 신중해야 하는지, 그리고 정부·산업 프로젝트에서 ‘from scratch’ 요건을 어떤 증빙으로 확인할지 등의 논의로 연결되었다.
논란 이후의 보도에서는 이번 사건이 오히려 “투명한 검증 문화”의 필요성을 부각했고, 업계·정부 인사들이 공개 검증의 의미를 언급했다는 내용도 확인된다. 결과적으로 Solar Open 100B 관련 논란은 특정 모델의 진위 공방을 넘어, 공개 모델 생태계에서 신뢰를 형성하는 절차와 기준을 재정의하는 사례로 자주 인용되고 있다.
5. 관련 문서 및 참고 자료
모델 카드(허깅페이스): SOLAR-10.7B-Instruct, Solar Pro Preview Instruct, Solar Open 100B 등 공개 저장소에서 상세 사용법·라이선스·성능 정보를 제공한다.
기술 문서(논문/리포트): SOLAR 10.7B(DUS 제안) 및 Solar Open Technical Report는 학습 방법론과 설계 철학을 비교적 체계적으로 설명한다.
API 및 제품 문서: Upstage Console을 통해 Solar 계열 모델 API를 제공하며, 블로그/문서에서 호출 방법과 활용 예시를 안내한다.
언론 보도 및 사건 기록: Solar Open 100B 관련 의혹 제기와 검증·사과 과정은 2026년 1월 초 다수 매체에서 보도되었다.
출처
Upstage News: Solar 10.7B 소개(약자 SOLAR 설명 포함)
arXiv: SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
Hugging Face: upstage/SOLAR-10.7B-Instruct-v1.0
Upstage News: Solar API Beta(2024-02-22)
Upstage News: Solar Pro Preview(2024-09-11)
Hugging Face: upstage/solar-pro-preview-instruct
Upstage Blog(ko): Solar Pro 2 Launch(2025-07-10)
Upstage Blog(en): Solar Pro 2 Launch(2025-07-10)
Hugging Face: upstage/Solar-Open-100B(모델 카드 및 사양/라이선스 안내)
arXiv: Solar Open Technical Report(2026)
ZDNet Korea: 업스테이지, 학습 로그·데이터 공개로 도용 의혹 반박(2026-01-02)
Asiae(영문): Solar Open 100B 표절 논란 경과 보도(2026-01-04)
Chosun Biz(영문): Solar Open 100B 공개 검증 관련 보도(2026-01-04)
The Chosun(영문): 의혹 제기 측 공개 사과 관련 보도(2026-01-04)
IT동아: Solar Open 100B 의혹 제기 및 분석 언급(2026-01-05)
오픈’은 10.5점, SK텔레콤 ‘에이닷엑스 케이원’은 7.6점을 기록하며 세계 최상위권 모델과의 격차를 확인했다.
연구진은 이번 결과가 최신 AI 기술과 인간 전문가 수준 사이에 여전히 명확한 격차가 있음을 시사한다고 강조했다. 기존 벤치마크들이 90% 이상의 정답률로 변별력을 잃은 상황에서, HLE는 AI의 진정한 이해력과 추론 능력을 검증할 새로운 표준이 될 전망이다.
또한 이번 벤치마크
벤치마크
벤치마크: 성능 측정의 기준점, 그 중요성과 활용법
목차
벤치마크의 개념
벤치마크의 종류
벤치마크의 활용
주요 벤치마크 툴
LLM 벤치마크의 이해
벤치마크 결과의 신뢰성
최신 벤치마크 트렌드
1. 벤치마크의 개념
1.1. 벤치마크의 정의와 목적
벤치마크(Benchmark)는 특정 시스템, 부품, 소프트웨어 또는 프로세스의 성능을 객관적으로 측정하고 비교하기 위한 표준화된 테스트 또는 기준점을 의미한다. 이는 주로 컴퓨터 하드웨어, 소프트웨어, 네트워크, 인공지능 모델 등 다양한 기술 분야에서 사용된다. 벤치마크의 주요 목적은 다음과 같다.
객관적인 성능 측정: 주관적인 판단이 아닌, 정량적인 데이터를 통해 성능을 평가한다. 예를 들어, 컴퓨터 프로세서의 벤치마크는 특정 계산 작업을 얼마나 빠르게 처리하는지 측정하여 수치화한다.
비교 가능성 제공: 서로 다른 제품이나 시스템 간의 성능을 공정하게 비교할 수 있는 기준을 제시한다. 이는 소비자가 제품을 선택하거나 개발자가 시스템을 개선할 때 중요한 정보를 제공한다.
개선점 식별: 벤치마크를 통해 현재 시스템의 약점이나 병목 현상을 파악하고, 이를 개선하기 위한 방향을 설정할 수 있다.
투명성 확보: 제조사나 개발자가 주장하는 성능을 제3자가 검증할 수 있는 수단을 제공하여 시장의 투명성을 높인다.
벤치마크라는 용어는 원래 측량에서 사용되던 기준점(표준 높이)에서 유래되었으며, 비즈니스 분야에서는 경쟁사나 업계 최고 수준의 기업과 비교하여 자신의 성과를 평가하고 개선하는 경영 기법을 의미하기도 한다. 기술 분야에서는 이와 유사하게 특정 기준에 대비하여 성능을 평가하는 행위를 지칭한다.
1.2. 벤치마크가 중요한 이유
벤치마크는 현대 기술 사회에서 다음과 같은 이유로 매우 중요한 역할을 한다.
소비자의 합리적인 선택 지원: 스마트폰, PC, 그래픽카드 등 다양한 제품군에서 벤치마크 점수는 소비자가 자신의 용도와 예산에 맞춰 최적의 제품을 선택하는 데 필수적인 정보를 제공한다. 예를 들어, 게이머는 높은 그래픽카드 벤치마크 점수를 가진 제품을 선호할 것이며, 사무용 사용자는 가격 대비 성능이 좋은 제품을 선택할 것이다.
개발 및 연구의 방향 제시: 하드웨어 제조사나 소프트웨어 개발사는 벤치마크 결과를 통해 자사 제품의 강점과 약점을 파악하고, 다음 세대 제품 개발이나 소프트웨어 최적화에 활용한다. 특정 벤치마크에서 낮은 점수를 받았다면, 해당 영역의 성능 개선에 집중할 수 있다.
산업 표준 및 혁신 촉진: 벤치마크는 특정 성능 기준을 제시하여 산업 전반의 기술 발전을 유도한다. 더 높은 벤치마크 점수를 얻기 위한 경쟁은 기술 혁신을 촉진하고, 이는 결국 더 나은 제품과 서비스로 이어진다.
투자 및 정책 결정의 근거: 기업은 벤치마크 결과를 바탕으로 기술 투자 방향을 결정하거나, 정부는 연구 개발 자금 지원 등의 정책을 수립할 때 벤치마크 데이터를 참고할 수 있다. 특히 인공지능 분야에서는 모델의 성능 벤치마크가 연구의 진행 상황과 잠재력을 보여주는 중요한 지표가 된다.
2. 벤치마크의 종류
벤치마크는 측정 대상과 목적에 따라 다양하게 분류될 수 있다.
2.1. 컴퓨팅 부품 성능 평가
가장 일반적인 벤치마크는 PC, 서버, 스마트폰 등 컴퓨팅 기기의 핵심 부품 성능을 평가하는 데 사용된다.
CPU (중앙 처리 장치) 벤치마크: 프로세서의 연산 능력, 멀티태스킹 성능 등을 측정한다. 대표적인 툴로는 Geekbench, Cinebench, PassMark 등이 있다. 이들은 복잡한 수학 연산, 데이터 압축, 이미지 렌더링 등 실제 사용 환경과 유사한 작업을 수행하여 CPU의 처리 속도를 평가한다.
GPU (그래픽 처리 장치) 벤치마크: 그래픽카드의 3D 렌더링 성능, 게임 프레임 처리 능력 등을 측정한다. 3DMark, FurMark, Unigine Heaven/Superposition 등이 널리 사용된다. 특히 게임 성능을 중요시하는 사용자들에게 GPU 벤치마크는 핵심적인 구매 기준이 된다.
RAM (메모리) 벤치마크: 메모리의 읽기/쓰기 속도, 대역폭, 지연 시간 등을 측정한다. AIDA64, MemTest86 등이 주로 사용되며, 시스템의 전반적인 반응 속도에 영향을 미친다.
저장장치 (SSD/HDD) 벤치마크: 솔리드 스테이트 드라이브(SSD)나 하드 디스크 드라이브(HDD)의 순차/랜덤 읽기/쓰기 속도, IOPS(초당 입출력 작업 수) 등을 평가한다. CrystalDiskMark, AS SSD Benchmark 등이 대표적이다. 이는 운영체제 부팅 속도나 대용량 파일 전송 속도에 직접적인 영향을 준다.
네트워크 벤치마크: 인터넷 연결 속도, Wi-Fi 신호 강도, 네트워크 지연 시간(Ping) 등을 측정한다. Speedtest.net, Fast.com 등 웹 기반 툴이 흔히 사용되며, 서버 간 네트워크 대역폭 테스트 등 전문적인 용도로도 활용된다.
배터리 벤치마크: 노트북이나 스마트폰의 배터리 지속 시간을 측정한다. 특정 작업을 반복 수행하거나 동영상 재생, 웹 브라우징 등 실제 사용 패턴을 시뮬레이션하여 배터리 효율성을 평가한다.
2.2. LLM 벤치마크와 일반 벤치마크의 차이점
최근 각광받는 대규모 언어 모델(LLM) 벤치마크는 기존 컴퓨팅 부품 벤치마크와는 다른 특성을 보인다.
측정 대상의 복잡성: 일반 컴퓨팅 벤치마크가 주로 연산 속도나 데이터 처리량 같은 물리적 성능 지표를 측정하는 반면, LLM 벤치마크는 모델의 '지능'과 '이해력', '생성 능력' 등 추상적이고 복합적인 능력을 평가한다. 이는 단순히 숫자로 표현하기 어려운 언어적, 논리적 추론 능력을 포함한다.
평가 방식의 다양성: LLM 벤치마크는 수학 문제 해결, 코딩 능력, 상식 추론, 독해력, 요약, 번역 등 다양한 태스크를 수행하도록 요구하며, 정답의 정확성뿐만 아니라 답변의 질, 일관성, 유해성 여부 등 다면적인 평가가 이루어진다.
인간 개입의 필요성: 일부 LLM 벤치마크는 모델의 답변을 사람이 직접 평가하는 휴먼 평가(Human Evaluation) 단계를 포함한다. 이는 단순히 정답 여부를 넘어, 텍스트의 자연스러움, 창의성, 공감 능력 등 미묘한 부분을 판단하기 위함이다. 반면, 일반 컴퓨팅 벤치마크는 대부분 자동화된 테스트 스크립트를 통해 기계적으로 측정된다.
빠른 변화와 새로운 기준의 등장: LLM 기술은 매우 빠르게 발전하고 있어, 기존 벤치마크가 빠르게 무용지물이 되거나 새로운 평가 기준이 계속해서 등장하고 있다. 이는 일반 컴퓨팅 벤치마크가 비교적 안정적인 측정 기준을 유지하는 것과는 대조적이다.
3. 벤치마크의 활용
벤치마크는 단순한 성능 비교를 넘어 다양한 분야에서 실질적인 가치를 제공한다.
3.1. 성능 비교를 통한 최적화
벤치마크는 시스템 성능 최적화의 중요한 도구이다.
하드웨어 구성 최적화: PC 조립 시 CPU, GPU, RAM, 저장장치 간의 벤치마크 점수를 비교하여 특정 작업에 가장 효율적인 조합을 찾을 수 있다. 예를 들어, 고사양 게임을 즐기는 사용자는 CPU보다 GPU에 더 많은 투자를 하는 것이 벤치마크 결과상 더 높은 프레임을 얻는 데 유리하다.
소프트웨어 및 드라이버 최적화: 새로운 운영체제 업데이트, 드라이버 버전 변경, 소프트웨어 설정 변경 등이 시스템 성능에 미치는 영향을 벤치마크를 통해 확인할 수 있다. 특정 드라이버 버전이 게임 벤치마크에서 더 높은 점수를 보인다면, 해당 버전을 유지하거나 롤백하는 것이 좋다.
시스템 병목 현상 진단: 전체 시스템 성능이 특정 부품 때문에 저하되는 '병목 현상'을 벤치마크를 통해 진단할 수 있다. 예를 들어, CPU 벤치마크는 높지만, 실제 게임에서 프레임이 낮게 나온다면 GPU나 RAM의 성능 부족이 원인일 수 있다.
3.2. 산업 내 벤치마크 사용 사례
벤치마크는 특정 산업 분야에서 품질 관리, 경쟁력 분석, 기술 개발의 기준으로 폭넓게 활용된다.
자동차 산업: 신차 개발 시 엔진 성능, 연료 효율, 안전성, 주행 안정성 등을 다양한 벤치마크 테스트를 통해 평가한다. 예를 들어, 연비 벤치마크는 소비자의 구매 결정에 큰 영향을 미치며, 충돌 테스트 벤치마크는 안전성 등급을 결정한다.
클라우드 컴퓨팅: 클라우드 서비스 제공업체들은 자사 서비스의 가상 머신(VM)이나 스토리지 성능을 벤치마크하여 고객에게 투명한 정보를 제공하고, 경쟁사 대비 우위를 입증한다. 고객은 벤치마크 결과를 바탕으로 자신의 워크로드에 적합한 클라우드 서비스를 선택할 수 있다.
금융 산업: 고빈도 매매 시스템이나 데이터 분석 플랫폼의 처리 속도는 금융 거래의 성패를 좌우한다. 금융 기관들은 시스템의 지연 시간, 처리량 등을 벤치마크하여 최적의 성능을 유지하고 경쟁력을 확보한다.
인공지능 산업: LLM을 비롯한 AI 모델 개발자들은 새로운 모델을 출시할 때 다양한 벤치마크를 통해 모델의 성능을 입증한다. 이는 연구 성과를 대외적으로 알리고, 투자 유치 및 기술 상용화에 중요한 역할을 한다. 최근에는 한국어 LLM의 성능을 평가하기 위한 KLUE, KoBART 등의 벤치마크 데이터셋도 활발히 활용되고 있다.
4. 주요 벤치마크 툴
다양한 하드웨어와 소프트웨어의 성능을 측정하기 위한 여러 벤치마크 툴이 존재한다.
4.1. 연산 성능, 저장장치 및 인터넷 관련 툴
CPU/GPU 연산 성능:
Geekbench: 크로스 플랫폼(Windows, macOS, Linux, Android, iOS)을 지원하는 종합 벤치마크 툴이다. 싱글 코어 및 멀티 코어 성능을 측정하며, CPU와 GPU(Compute) 벤치마크를 모두 제공한다.
Cinebench: 3D 렌더링 작업을 기반으로 CPU의 멀티 코어 성능을 측정하는 데 특화된 툴이다. Maxon Cinema 4D 엔진을 사용하여 실제 작업 환경과 유사한 부하를 준다.
3DMark: Futuremark(현재 UL Solutions)에서 개발한 대표적인 GPU 벤치마크 툴이다. 다양한 그래픽 API(DirectX, Vulkan, OpenGL)와 해상도에 맞춰 여러 테스트(Time Spy, Fire Strike, Port Royal 등)를 제공하며, 주로 게임 성능을 평가하는 데 사용된다.
PassMark PerformanceTest: CPU, 2D/3D 그래픽, 메모리, 디스크 등 컴퓨터의 모든 주요 부품에 대한 포괄적인 벤치마크를 제공한다. 직관적인 인터페이스와 방대한 비교 데이터베이스가 특징이다.
저장장치:
CrystalDiskMark: SSD 및 HDD의 순차/랜덤 읽기/쓰기 속도를 측정하는 데 널리 사용되는 무료 툴이다. 간단한 인터페이스로 쉽게 사용할 수 있으며, 다양한 큐 깊이(Queue Depth)와 스레드(Thread) 설정으로 세부적인 테스트가 가능하다.
AS SSD Benchmark: 특히 SSD 성능 측정에 특화된 툴이다. 압축 가능한 데이터와 압축 불가능한 데이터에 대한 성능 차이를 보여줄 수 있으며, IOPS 값도 함께 제공한다.
인터넷 및 네트워크:
Speedtest.net (Ookla): 가장 널리 사용되는 웹 기반 인터넷 속도 측정 툴이다. 다운로드/업로드 속도와 Ping(지연 시간)을 측정하며, 전 세계에 분포한 서버를 통해 정확한 결과를 제공한다.
Fast.com (Netflix): 넷플릭스에서 제공하는 간단한 인터넷 속도 측정 툴로, 주로 넷플릭스 콘텐츠 스트리밍에 필요한 대역폭을 측정하는 데 초점을 맞춘다.
4.2. 배터리 및 인공지능 벤치마크 툴
배터리 벤치마크:
PCMark: UL Solutions에서 개발한 PC 벤치마크 스위트 중 하나로, 배터리 수명 테스트 기능을 포함한다. 웹 브라우징, 비디오 재생, 게임 등 실제 사용 시나리오를 시뮬레이션하여 배터리 지속 시간을 측정한다.
GSMArena Battery Test: 스마트폰 리뷰 사이트인 GSMArena에서 자체적으로 진행하는 배터리 테스트로, 웹 브라우징, 비디오 재생, 통화 시간 등을 기준으로 배터리 내구성을 평가한다.
인공지능 벤치마크:
MLPerf: 구글, 엔비디아, 인텔 등 주요 AI 기업 및 연구 기관들이 참여하여 개발한 포괄적인 AI 벤치마크 스위트이다. 이미지 분류, 객체 탐지, 음성 인식, 번역 등 다양한 AI 워크로드에 대한 학습(training) 및 추론(inference) 성능을 측정한다. 이는 특정 하드웨어에서 AI 모델이 얼마나 효율적으로 작동하는지 평가하는 데 사용된다.
Hugging Face Open LLM Leaderboard: 허깅페이스에서 운영하는 LLM 성능 벤치마크 순위표로, 다양한 공개 LLM 모델들의 언어 이해, 추론, 상식 등 여러 태스크에 대한 성능을 종합적으로 평가하여 순위를 매긴다. 이는 LLM 연구자와 개발자들에게 중요한 참고 자료가 된다.
MMLU (Massive Multitask Language Understanding): 57개 학문 분야(역사, 수학, 법학, 의학 등)에 걸친 객관식 문제로 구성된 벤치마크로, LLM의 광범위한 지식과 추론 능력을 평가하는 데 사용된다.
5. LLM 벤치마크의 이해
대규모 언어 모델(LLM)의 등장과 함께, 이들의 복잡한 능력을 정확히 평가하기 위한 벤치마크의 중요성이 더욱 커지고 있다.
5.1. LLM 벤치마크란 무엇인지
LLM 벤치마크는 대규모 언어 모델이 인간의 언어를 얼마나 잘 이해하고, 추론하며, 생성하는지를 측정하기 위한 일련의 표준화된 테스트이다. 기존의 자연어 처리(NLP) 벤치마크가 특정 태스크(예: 감성 분석, 개체명 인식)에 집중했다면, LLM 벤치마크는 모델의 일반적인 지능과 다재다능함을 평가하는 데 초점을 맞춘다. 이는 모델이 단순히 텍스트를 처리하는 것을 넘어, 상식, 논리, 창의성 등 복합적인 인지 능력을 얼마나 잘 발휘하는지 알아보는 과정이다.
예를 들어, "벤치마크의 중요성을 설명하는 글을 써줘"라는 프롬프트에 대해 모델이 얼마나 정확하고, 논리적이며, 유익하고, 자연스러운 답변을 생성하는지를 평가하는 것이 LLM 벤치마크의 핵심이다.
5.2. 주요 메트릭과 평가 방식
LLM 벤치마크는 다양한 메트릭과 평가 방식을 활용하여 모델의 성능을 다각도로 측정한다.
정확도 (Accuracy): 모델이 주어진 질문에 대해 올바른 답변을 얼마나 잘 도출하는지 측정한다. 이는 주로 객관식 문제나 정답이 명확한 태스크에서 사용된다. 예를 들어, 수학 문제 풀이나 코드 생성의 정확성 등이 이에 해당한다.
유창성 (Fluency): 모델이 생성한 텍스트가 얼마나 문법적으로 올바르고, 자연스럽고, 읽기 쉬운지 평가한다. 이는 주로 번역, 요약, 글쓰기 등 생성 태스크에서 중요하게 고려된다.
일관성 (Coherence/Consistency): 모델의 답변이 전체적으로 논리적이고 일관된 흐름을 유지하는지 평가한다. 긴 글을 생성하거나 여러 질문에 답할 때 특히 중요하며, 모순된 정보를 제공하지 않는 것이 핵심이다.
추론 능력 (Reasoning): 모델이 주어진 정보를 바탕으로 논리적인 결론을 도출하거나, 복잡한 문제를 해결하는 능력을 측정한다. 상식 추론, 논리 퍼즐, 복잡한 독해 문제 등이 이에 해당한다.
유해성/안전성 (Harmlessness/Safety): 모델이 차별적이거나, 폭력적이거나, 불법적인 콘텐츠를 생성하지 않는지 평가한다. 이는 실제 서비스에 적용될 LLM의 윤리적이고 사회적인 책임을 다루는 중요한 지표이다.
편향성 (Bias): 모델이 특정 인종, 성별, 지역 등에 대한 편향된 정보를 생성하는지 여부를 측정한다. 편향된 데이터로 학습된 모델은 사회적 편견을 강화할 수 있으므로, 이를 줄이는 것이 중요하다.
휴먼 평가 (Human Evaluation): 자동화된 메트릭만으로는 모델의 미묘한 성능 차이나 창의성, 공감 능력 등을 완전히 평가하기 어렵다. 따라서 사람이 직접 모델의 답변을 읽고 점수를 매기거나 순위를 정하는 방식이 병행된다. 이는 특히 주관적인 판단이 필요한 생성 태스크에서 중요한 역할을 한다.
제로샷/퓨샷 학습 (Zero-shot/Few-shot Learning): 모델이 학습 데이터에 없는 새로운 태스크나 소수의 예시만으로도 얼마나 잘 수행하는지 평가한다. 이는 모델의 일반화 능력과 새로운 상황에 대한 적응력을 보여준다.
6. 벤치마크 결과의 신뢰성
벤치마크는 객관적인 성능 지표를 제공하지만, 그 결과의 해석과 신뢰성에는 주의가 필요하다.
6.1. 벤치마크 조작 가능성
일부 제조사나 개발사는 자사 제품의 벤치마크 점수를 높이기 위해 다양한 편법을 사용하기도 한다.
벤치마크 감지 및 성능 부스트: 일부 장치는 벤치마크 소프트웨어를 감지하면 일시적으로 최대 성능을 발휘하도록 설정되어 있다. 이는 실제 일반적인 사용 환경에서는 도달하기 어려운 성능이며, '치팅(cheating)'으로 간주될 수 있다. 예를 들어, 스마트폰 제조사들이 벤치마크 앱이 실행될 때만 CPU 클럭을 최대로 올리거나, 특정 앱에 대한 성능 제한을 해제하는 경우가 과거에 보고된 바 있다.
특정 벤치마크에 최적화: 특정 벤치마크 툴에서 높은 점수를 얻기 위해 하드웨어 또는 소프트웨어를 최적화하는 경우도 있다. 이는 다른 벤치마크나 실제 사용 환경에서는 기대만큼의 성능 향상을 보이지 않을 수 있다.
결과 선택적 공개: 유리한 벤치마크 결과만 선별적으로 공개하고 불리한 결과는 숨기는 방식이다. 이는 소비자를 오도할 수 있다.
이러한 조작 가능성 때문에 공신력 있는 벤치마크 기관이나 커뮤니티에서는 조작 여부를 지속적으로 감시하고, 표준화된 테스트 절차를 강화하며, 다양한 벤치마크 툴을 통해 교차 검증을 시도한다.
6.2. 점수의 해석과 한계
벤치마크 점수는 중요한 지표이지만, 그 자체로 모든 것을 대변하지는 않는다.
실제 사용 환경과의 괴리: 벤치마크는 특정 시나리오를 가정하여 설계되므로, 사용자의 실제 사용 패턴과는 다를 수 있다. 예를 들어, 게임 벤치마크 점수가 매우 높은 그래픽카드라도, 사용자가 주로 문서 작업만 한다면 해당 점수는 큰 의미가 없을 수 있다.
종합적인 시스템 성능 반영 부족: 특정 부품의 벤치마크 점수가 높다고 해서 전체 시스템 성능이 반드시 높은 것은 아니다. CPU, GPU, RAM, 저장장치, 네트워크 등 모든 부품의 균형이 중요하며, 이들 간의 상호작용이 전체 성능에 더 큰 영향을 미칠 수 있다. 즉, "최고의 부품을 모아도 최고의 시스템이 되지 않을 수 있다"는 점을 기억해야 한다.
기술 발전 속도: 특히 AI 분야에서는 기술 발전 속도가 매우 빨라, 오늘날 최고 성능을 보여주는 벤치마크 모델이 불과 몇 달 후에는 구형이 될 수 있다. 따라서 최신 벤치마크 트렌드를 지속적으로 파악하는 것이 중요하다.
주관적인 경험의 중요성: 벤치마크는 객관적인 수치를 제공하지만, 사용자가 느끼는 '체감 성능'은 벤치마크 점수만으로는 설명하기 어려운 주관적인 요소가 많다. 예를 들어, 특정 모델의 벤치마크 점수는 낮더라도, 사용자가 선호하는 특정 작업에서 매우 효율적일 수 있다.
따라서 벤치마크 점수를 해석할 때는 여러 벤치마크 툴의 결과를 종합적으로 고려하고, 자신의 실제 사용 목적과 환경을 충분히 고려하여 판단하는 것이 현명하다.
7. 최신 벤치마크 트렌드
기술 발전, 특히 인공지능 분야의 급격한 성장은 새로운 벤치마크의 필요성을 끊임없이 제기하고 있다.
7.1. AI 패러다임의 전환
최근 몇 년간 대규모 언어 모델(LLM)과 같은 생성형 AI의 등장은 AI 벤치마크 패러다임에 큰 변화를 가져왔다. 과거 AI 벤치마크는 주로 이미지 분류, 객체 탐지, 음성 인식 등 특정 태스크에 대한 모델의 정확도를 측정하는 데 중점을 두었다. 그러나 LLM은 다양한 태스크를 범용적으로 수행할 수 있는 '일반 지능'에 가까운 능력을 보여주면서, 이를 평가하기 위한 새로운 접근 방식이 요구되고 있다.
멀티모달 벤치마크의 부상: 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 멀티모달(Multimodal) AI 모델의 중요성이 커지면서, 이를 평가하는 벤치마크도 증가하고 있다. 예를 들어, 텍스트와 이미지를 동시에 이해하여 질문에 답하거나 새로운 이미지를 생성하는 모델의 성능을 측정하는 벤치마크가 개발되고 있다.
추론 및 상식 벤치마크의 강화: 단순한 패턴 인식이나 데이터 암기를 넘어, 복잡한 추론 능력과 폭넓은 상식 지식을 평가하는 벤치마크가 더욱 중요해지고 있다. 이는 AI가 실제 세계 문제를 해결하는 데 필수적인 능력이다.
안전성 및 윤리 벤치마크: AI 모델의 편향성, 유해성, 오용 가능성 등 사회적, 윤리적 문제를 평가하는 벤치마크의 중요성이 크게 부각되고 있다. 이는 AI 기술의 책임 있는 개발과 배포를 위해 필수적인 요소로 인식되고 있다.
7.2. 새로운 벤치마크의 중요성
AI 패러다임의 전환은 기존 벤치마크의 한계를 드러내고, 새로운 벤치마크의 필요성을 강조하고 있다.
기존 벤치마크의 포화: 많은 기존 벤치마크 데이터셋에서 최신 LLM 모델들은 이미 인간 수준 또는 그 이상의 성능을 달성하고 있다. 이는 벤치마크가 더 이상 모델 간의 유의미한 성능 차이를 변별하지 못하게 되는 '벤치마크 포화(Benchmark Saturation)' 문제를 야기한다.
새로운 능력 평가의 필요성: LLM은 단순한 답변 생성을 넘어, 복잡한 문제 해결, 창의적인 글쓰기, 코드 디버깅 등 이전에는 상상하기 어려웠던 능력을 보여준다. 이러한 새로운 능력을 정확하게 평가하고 비교할 수 있는 벤치마크가 필수적이다. 예를 들어, LLM이 주어진 데이터만으로 새로운 과학 가설을 세우거나, 복잡한 소프트웨어 시스템을 설계하는 능력을 평가하는 벤치마크가 연구될 수 있다.
실제 적용 환경 반영: 실험실 환경에서의 벤치마크 점수뿐만 아니라, 실제 서비스 환경에서 AI 모델이 얼마나 안정적이고 효율적으로 작동하는지를 평가하는 벤치마크가 중요해지고 있다. 이는 모델의 지연 시간, 처리량, 자원 사용량 등을 포함한다.
지속적인 업데이트와 다양성: AI 기술의 빠른 발전 속도를 고려할 때, 벤치마크 데이터셋과 평가 방식은 지속적으로 업데이트되고 다양화되어야 한다. 단일 벤치마크에 의존하기보다는 여러 벤치마크를 통해 모델의 종합적인 능력을 평가하는 것이 바람직하다.
결론적으로, 벤치마크는 기술 발전의 중요한 이정표이자 가이드라인 역할을 한다. 단순한 숫자 비교를 넘어, 그 의미와 한계를 정확히 이해하고 최신 트렌드를 반영하는 새로운 벤치마크의 개발과 활용은 앞으로도 기술 혁신을 이끄는 핵심 동력이 될 것이다.
참고 문헌
[네이버 지식백과] 벤치마킹 (시사상식사전). Available at: https://terms.naver.com/entry.naver?docId=70638&cid=43667&categoryId=43667
[KLUE: Korean Language Understanding Evaluation]. Available at: https://klue-benchmark.com/
[Geekbench Official Website]. Available at: https://www.geekbench.com/
[Cinebench Official Website]. Available at: https://www.maxon.net/en/cinebench
[3DMark Official Website]. Available at: https://benchmarks.ul.com/3dmark
[MLPerf Official Website]. Available at: https://mlcommons.org/benchmarks/mlperf/
[Hugging Face Open LLM Leaderboard]. Available at: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
[MMLU: Measuring Massive Multitask Language Understanding]. Hendrycks, D., Burns, C., Kadavath, S., et al. (2021). arXiv preprint arXiv:2009.03300. Available at: https://arxiv.org/abs/2009.03300
[Google AI Blog: Benchmarking for Responsible AI]. (2023). Available at: https://ai.googleblog.com/2023/10/benchmarking-for-responsible-ai.html
[Ars Technica: Samsung caught throttling apps, including games, on Galaxy S22 phones]. (2022). Available at: https://arstechnica.com/gadgets/2022/03/samsung-caught-throttling-apps-including-games-on-galaxy-s22-phones/
[Towards Data Science: The Problem with AI Benchmarks]. (2023). Available at: https://towardsdatascience.com/the-problem-with-ai-benchmarks-e6b7c8a4d4f8
[LG CNS 블로그: LLM (거대 언어 모델) 개발 현황 및 벤치마크 성능 비교]. (2023). Available at: https://www.lgcns.com/insight/blog-post/ai/llm-benchmark/
[AI타임스: 국내 AI 반도체 벤치마크, 'AI 칩 성능 검증 환경' 구축]. (2024). Available at: http://www.aitimes.com/news/articleView.html?idxno=157640
Disclaimer: 이 글은 2025년 9월 현재의 정보를 바탕으로 작성되었으며, 기술 발전과 함께 내용은 변경될 수 있다.
---벤치마크: 성능 측정의 기준점, 그 중요성과 활용법
Meta Description: 벤치마크란 무엇이며 왜 중요한가? 컴퓨팅 성능부터 LLM까지, 벤치마크의 종류, 활용법, 주요 툴, 신뢰성 및 최신 AI 트렌드를 심층 분석한다.
목차
벤치마크의 개념
벤치마크의 종류
벤치마크의 활용
주요 벤치마크 툴
LLM 벤치마크의 이해
벤치마크 결과의 신뢰성
최신 벤치마크 트렌드
1. 벤치마크의 개념
1.1. 벤치마크의 정의와 목적
벤치마크(Benchmark)는 특정 시스템, 부품, 소프트웨어 또는 프로세스의 성능을 객관적으로 측정하고 비교하기 위한 표준화된 테스트 또는 기준점을 의미한다. 이는 주로 컴퓨터 하드웨어, 소프트웨어, 네트워크, 인공지능 모델 등 다양한 기술 분야에서 사용된다. 벤치마크의 주요 목적은 다음과 같다.
객관적인 성능 측정: 주관적인 판단이 아닌, 정량적인 데이터를 통해 성능을 평가한다. 예를 들어, 컴퓨터 프로세서의 벤치마크는 특정 계산 작업을 얼마나 빠르게 처리하는지 측정하여 수치화한다.
비교 가능성 제공: 서로 다른 제품이나 시스템 간의 성능을 공정하게 비교할 수 있는 기준을 제시한다. 이는 소비자가 제품을 선택하거나 개발자가 시스템을 개선할 때 중요한 정보를 제공한다.
개선점 식별: 벤치마크를 통해 현재 시스템의 약점이나 병목 현상을 파악하고, 이를 개선하기 위한 방향을 설정할 수 있다.
투명성 확보: 제조사나 개발자가 주장하는 성능을 제3자가 검증할 수 있는 수단을 제공하여 시장의 투명성을 높인다.
벤치마크라는 용어는 원래 측량에서 사용되던 기준점(표준 높이)에서 유래되었으며, 비즈니스 분야에서는 경쟁사나 업계 최고 수준의 기업과 비교하여 자신의 성과를 평가하고 개선하는 경영 기법을 의미하기도 한다. 기술 분야에서는 이와 유사하게 특정 기준에 대비하여 성능을 평가하는 행위를 지칭한다.
1.2. 벤치마크가 중요한 이유
벤치마크는 현대 기술 사회에서 다음과 같은 이유로 매우 중요한 역할을 한다.
소비자의 합리적인 선택 지원: 스마트폰, PC, 그래픽카드 등 다양한 제품군에서 벤치마크 점수는 소비자가 자신의 용도와 예산에 맞춰 최적의 제품을 선택하는 데 필수적인 정보를 제공한다.
개발 및 연구의 방향 제시: 하드웨어 제조사나 소프트웨어 개발사는 벤치마크 결과를 통해 자사 제품의 강점과 약점을 파악하고, 다음 세대 제품 개발이나 소프트웨어 최적화에 활용한다. 특정 벤치마크에서 낮은 점수를 받았다면, 해당 영역의 성능 개선에 집중할 수 있다.
산업 표준 및 혁신 촉진: 벤치마크는 특정 성능 기준을 제시하여 산업 전반의 기술 발전을 유도한다. 더 높은 벤치마크 점수를 얻기 위한 경쟁은 기술 혁신을 촉진하고, 이는 결국 더 나은 제품과 서비스로 이어진다.
투자 및 정책 결정의 근거: 기업은 벤치마크 결과를 바탕으로 기술 투자 방향을 결정하거나, 정부는 연구 개발 자금 지원 등의 정책을 수립할 때 벤치마크 데이터를 참고할 수 있다. 특히 인공지능 분야에서는 모델의 성능 벤치마크가 연구의 진행 상황과 잠재력을 보여주는 중요한 지표가 된다.
2. 벤치마크의 종류
벤치마크는 측정 대상과 목적에 따라 다양하게 분류될 수 있다.
2.1. 컴퓨팅 부품 성능 평가
가장 일반적인 벤치마크는 PC, 서버, 스마트폰 등 컴퓨팅 기기의 핵심 부품 성능을 평가하는 데 사용된다.
CPU (중앙 처리 장치) 벤치마크: 프로세서의 연산 능력, 멀티태스킹 성능 등을 측정한다. 대표적인 툴로는 Geekbench, Cinebench, PassMark 등이 있다.
GPU (그래픽 처리 장치) 벤치마크: 그래픽카드의 3D 렌더링 성능, 게임 프레임 처리 능력 등을 측정한다. 3DMark, FurMark, Unigine Heaven/Superposition 등이 널리 사용된다.
RAM (메모리) 벤치마크: 메모리의 읽기/쓰기 속도, 대역폭, 지연 시간 등을 측정한다. AIDA64, MemTest86 등이 주로 사용된다.
저장장치 (SSD/HDD) 벤치마크: 솔리드 스테이트 드라이브(SSD)나 하드 디스크 드라이브(HDD)의 순차/랜덤 읽기/쓰기 속도, IOPS(초당 입출력 작업 수) 등을 평가한다. CrystalDiskMark, AS SSD Benchmark 등이 대표적이다.
네트워크 벤치마크: 인터넷 연결 속도, Wi-Fi 신호 강도, 네트워크 지연 시간(Ping) 등을 측정한다. Speedtest.net, Fast.com 등 웹 기반 툴이 흔히 사용된다.
배터리 벤치마크: 노트북이나 스마트폰의 배터리 지속 시간을 측정한다. 특정 작업을 반복 수행하거나 동영상 재생, 웹 브라우징 등 실제 사용 패턴을 시뮬레이션하여 배터리 효율성을 평가한다.
2.2. LLM 벤치마크와 일반 벤치마크의 차이점
최근 각광받는 대규모 언어 모델(LLM) 벤치마크는 기존 컴퓨팅 부품 벤치마크와는 다른 특성을 보인다.
측정 대상의 복잡성: 일반 컴퓨팅 벤치마크가 주로 연산 속도나 데이터 처리량 같은 물리적 성능 지표를 측정하는 반면, LLM 벤치마크는 모델의 '지능'과 '이해력', '생성 능력' 등 추상적이고 복합적인 능력을 평가한다.
평가 방식의 다양성: LLM 벤치마크는 수학 문제 해결, 코딩 능력, 상식 추론, 독해력, 요약, 번역 등 다양한 태스크를 수행하도록 요구하며, 정답의 정확성뿐만 아니라 답변의 질, 일관성, 유해성 여부 등 다면적인 평가가 이루어진다.
인간 개입의 필요성: 일부 LLM 벤치마크는 모델의 답변을 사람이 직접 평가하는 휴먼 평가(Human Evaluation) 단계를 포함한다. 이는 단순히 정답 여부를 넘어, 텍스트의 자연스러움, 창의성, 공감 능력 등 미묘한 부분을 판단하기 위함이다. 반면, 일반 컴퓨팅 벤치마크는 대부분 자동화된 테스트 스크립트를 통해 기계적으로 측정된다.
빠른 변화와 새로운 기준의 등장: LLM 기술은 매우 빠르게 발전하고 있어, 기존 벤치마크가 빠르게 무용지물이 되거나 새로운 평가 기준이 계속해서 등장하고 있다. 이는 일반 컴퓨팅 벤치마크가 비교적 안정적인 측정 기준을 유지하는 것과는 대조적이다.
3. 벤치마크의 활용
벤치마크는 단순한 성능 비교를 넘어 다양한 분야에서 실질적인 가치를 제공한다.
3.1. 성능 비교를 통한 최적화
벤치마크는 시스템 성능 최적화의 중요한 도구이다.
하드웨어 구성 최적화: PC 조립 시 CPU, GPU, RAM, 저장장치 간의 벤치마크 점수를 비교하여 특정 작업에 가장 효율적인 조합을 찾을 수 있다.
소프트웨어 및 드라이버 최적화: 새로운 운영체제 업데이트, 드라이버 버전 변경, 소프트웨어 설정 변경 등이 시스템 성능에 미치는 영향을 벤치마크를 통해 확인할 수 있다.
시스템 병목 현상 진단: 전체 시스템 성능이 특정 부품 때문에 저하되는 '병목 현상'을 벤치마크를 통해 진단할 수 있다.
3.2. 산업 내 벤치마크 사용 사례
벤치마크는 특정 산업 분야에서 품질 관리, 경쟁력 분석, 기술 개발의 기준으로 폭넓게 활용된다.
자동차 산업: 신차 개발 시 엔진 성능, 연료 효율, 안전성, 주행 안정성 등을 다양한 벤치마크 테스트를 통해 평가한다.
클라우드 컴퓨팅: 클라우드 서비스 제공업체들은 자사 서비스의 가상 머신(VM)이나 스토리지 성능을 벤치마크하여 고객에게 투명한 정보를 제공하고, 경쟁사 대비 우위를 입증한다.
금융 산업: 고빈도 매매 시스템이나 데이터 분석 플랫폼의 처리 속도는 금융 거래의 성패를 좌우한다. 금융 기관들은 시스템의 지연 시간, 처리량 등을 벤치마크하여 최적의 성능을 유지하고 경쟁력을 확보한다.
인공지능 산업: LLM을 비롯한 AI 모델 개발자들은 새로운 모델을 출시할 때 다양한 벤치마크를 통해 모델의 성능을 입증한다. 이는 연구 성과를 대외적으로 알리고, 투자 유치 및 기술 상용화에 중요한 역할을 한다. 최근에는 한국어 LLM의 성능을 평가하기 위한 KLUE, KoBART 등의 벤치마크 데이터셋도 활발히 활용되고 있다.
4. 주요 벤치마크 툴
다양한 하드웨어와 소프트웨어의 성능을 측정하기 위한 여러 벤치마크 툴이 존재한다.
4.1. 연산 성능, 저장장치 및 인터넷 관련 툴
CPU/GPU 연산 성능:
Geekbench: 크로스 플랫폼(Windows, macOS, Linux, Android, iOS)을 지원하는 종합 벤치마크 툴이다. 싱글 코어 및 멀티 코어 성능을 측정하며, CPU와 GPU(Compute) 벤치마크를 모두 제공한다.
Cinebench: 3D 렌더링 작업을 기반으로 CPU의 멀티 코어 성능을 측정하는 데 특화된 툴이다. Maxon Cinema 4D 엔진을 사용하여 실제 작업 환경과 유사한 부하를 준다.
3DMark: UL Solutions에서 개발한 대표적인 GPU 벤치마크 툴이다. 다양한 그래픽 API(DirectX, Vulkan, OpenGL)와 해상도에 맞춰 여러 테스트(Time Spy, Fire Strike, Port Royal 등)를 제공하며, 주로 게임 성능을 평가하는 데 사용된다.
PassMark PerformanceTest: CPU, 2D/3D 그래픽, 메모리, 디스크 등 컴퓨터의 모든 주요 부품에 대한 포괄적인 벤치마크를 제공한다.
저장장치:
CrystalDiskMark: SSD 및 HDD의 순차/랜덤 읽기/쓰기 속도를 측정하는 데 널리 사용되는 무료 툴이다.
AS SSD Benchmark: 특히 SSD 성능 측정에 특화된 툴이다.
인터넷 및 네트워크:
Speedtest.net (Ookla): 가장 널리 사용되는 웹 기반 인터넷 속도 측정 툴이다. 다운로드/업로드 속도와 Ping(지연 시간)을 측정하며, 전 세계에 분포한 서버를 통해 정확한 결과를 제공한다.
Fast.com (Netflix): 넷플릭스에서 제공하는 간단한 인터넷 속도 측정 툴로, 주로 넷플릭스 콘텐츠 스트리밍에 필요한 대역폭을 측정하는 데 초점을 맞춘다.
4.2. 배터리 및 인공지능 벤치마크 툴
배터리 벤치마크:
PCMark: UL Solutions에서 개발한 PC 벤치마크 스위트 중 하나로, 배터리 수명 테스트 기능을 포함한다.
GSMArena Battery Test: 스마트폰 리뷰 사이트인 GSMArena에서 자체적으로 진행하는 배터리 테스트로, 웹 브라우징, 비디오 재생, 통화 시간 등을 기준으로 배터리 내구성을 평가한다.
인공지능 벤치마크:
MLPerf: 구글, 엔비디아, 인텔 등 주요 AI 기업 및 연구 기관들이 참여하여 개발한 포괄적인 AI 벤치마크 스위트이다. 이미지 분류, 객체 탐지, 음성 인식, 번역 등 다양한 AI 워크로드에 대한 학습(training) 및 추론(inference) 성능을 측정한다.
Hugging Face Open LLM Leaderboard: 허깅페이스에서 운영하는 LLM 성능 벤치마크 순위표로, 다양한 공개 LLM 모델들의 언어 이해, 추론, 상식 등 여러 태스크에 대한 성능을 종합적으로 평가하여 순위를 매긴다.
MMLU (Massive Multitask Language Understanding): 57개 학문 분야(역사, 수학, 법학, 의학 등)에 걸친 객관식 문제로 구성된 벤치마크로, LLM의 광범위한 지식과 추론 능력을 평가하는 데 사용된다.
5. LLM 벤치마크의 이해
대규모 언어 모델(LLM)의 등장과 함께, 이들의 복잡한 능력을 정확히 평가하기 위한 벤치마크의 중요성이 더욱 커지고 있다.
5.1. LLM 벤치마크란 무엇인지
LLM 벤치마크는 대규모 언어 모델이 인간의 언어를 얼마나 잘 이해하고, 추론하며, 생성하는지를 측정하기 위한 일련의 표준화된 테스트이다. 기존의 자연어 처리(NLP) 벤치마크가 특정 태스크(예: 감성 분석, 개체명 인식)에 집중했다면, LLM 벤치마크는 모델의 일반적인 지능과 다재다능함을 평가하는 데 초점을 맞춘다. 이는 모델이 단순히 텍스트를 처리하는 것을 넘어, 상식, 논리, 창의성 등 복합적인 인지 능력을 얼마나 잘 발휘하는지 알아보는 과정이다.
5.2. 주요 메트릭과 평가 방식
LLM 벤치마크는 다양한 메트릭과 평가 방식을 활용하여 모델의 성능을 다각도로 측정한다.
정확도 (Accuracy): 모델이 주어진 질문에 대해 올바른 답변을 얼마나 잘 도출하는지 측정한다. 이는 주로 객관식 문제나 정답이 명확한 태스크에서 사용된다.
유창성 (Fluency): 모델이 생성한 텍스트가 얼마나 문법적으로 올바르고, 자연스럽고, 읽기 쉬운지 평가한다.
일관성 (Coherence/Consistency): 모델의 답변이 전체적으로 논리적이고 일관된 흐름을 유지하는지 평가한다.
추론 능력 (Reasoning): 모델이 주어진 정보를 바탕으로 논리적인 결론을 도출하거나, 복잡한 문제를 해결하는 능력을 측정한다.
유해성/안전성 (Harmlessness/Safety): 모델이 차별적이거나, 폭력적이거나, 불법적인 콘텐츠를 생성하지 않는지 평가한다. 이는 실제 서비스에 적용될 LLM의 윤리적이고 사회적인 책임을 다루는 중요한 지표이다.
편향성 (Bias): 모델이 특정 인종, 성별, 지역 등에 대한 편향된 정보를 생성하는지 여부를 측정한다.
휴먼 평가 (Human Evaluation): 자동화된 메트릭만으로는 모델의 미묘한 성능 차이나 창의성, 공감 능력 등을 완전히 평가하기 어렵다. 따라서 사람이 직접 모델의 답변을 읽고 점수를 매기거나 순위를 정하는 방식이 병행된다.
제로샷/퓨샷 학습 (Zero-shot/Few-shot Learning): 모델이 학습 데이터에 없는 새로운 태스크나 소수의 예시만으로도 얼마나 잘 수행하는지 평가한다. 이는 모델의 일반화 능력과 새로운 상황에 대한 적응력을 보여준다.
6. 벤치마크 결과의 신뢰성
벤치마크는 객관적인 성능 지표를 제공하지만, 그 결과의 해석과 신뢰성에는 주의가 필요하다.
6.1. 벤치마크 조작 가능성
일부 제조사나 개발사는 자사 제품의 벤치마크 점수를 높이기 위해 다양한 편법을 사용하기도 한다.
벤치마크 감지 및 성능 부스트: 일부 장치는 벤치마크 소프트웨어를 감지하면 일시적으로 최대 성능을 발휘하도록 설정되어 있다. 이는 실제 일반적인 사용 환경에서는 도달하기 어려운 성능이며, '치팅(cheating)'으로 간주될 수 있다. 예를 들어, 삼성 갤럭시 S22 시리즈의 경우, 벤치마크 앱을 감지하여 성능을 조작했다는 논란이 있었다.
특정 벤치마크에 최적화: 특정 벤치마크 툴에서 높은 점수를 얻기 위해 하드웨어 또는 소프트웨어를 최적화하는 경우도 있다. 이는 다른 벤치마크나 실제 사용 환경에서는 기대만큼의 성능 향상을 보이지 않을 수 있다.
결과 선택적 공개: 유리한 벤치마크 결과만 선별적으로 공개하고 불리한 결과는 숨기는 방식이다.
이러한 조작 가능성 때문에 공신력 있는 벤치마크 기관이나 커뮤니티에서는 조작 여부를 지속적으로 감시하고, 표준화된 테스트 절차를 강화하며, 다양한 벤치마크 툴을 통해 교차 검증을 시도한다.
6.2. 점수의 해석과 한계
벤치마크 점수는 중요한 지표이지만, 그 자체로 모든 것을 대변하지는 않는다.
실제 사용 환경과의 괴리: 벤치마크는 특정 시나리오를 가정하여 설계되므로, 사용자의 실제 사용 패턴과는 다를 수 있다.
종합적인 시스템 성능 반영 부족: 특정 부품의 벤치마크 점수가 높다고 해서 전체 시스템 성능이 반드시 높은 것은 아니다. CPU, GPU, RAM, 저장장치, 네트워크 등 모든 부품의 균형이 중요하며, 이들 간의 상호작용이 전체 성능에 더 큰 영향을 미칠 수 있다.
기술 발전 속도: 특히 AI 분야에서는 기술 발전 속도가 매우 빨라, 오늘날 최고 성능을 보여주는 벤치마크 모델이 불과 몇 달 후에는 구형이 될 수 있다.
주관적인 경험의 중요성: 벤치마크는 객관적인 수치를 제공하지만, 사용자가 느끼는 '체감 성능'은 벤치마크 점수만으로는 설명하기 어려운 주관적인 요소가 많다.
따라서 벤치마크 점수를 해석할 때는 여러 벤치마크 툴의 결과를 종합적으로 고려하고, 자신의 실제 사용 목적과 환경을 충분히 고려하여 판단하는 것이 현명하다.
7. 최신 벤치마크 트렌드
기술 발전, 특히 인공지능 분야의 급격한 성장은 새로운 벤치마크의 필요성을 끊임없이 제기하고 있다.
7.1. AI 패러다임의 전환
최근 몇 년간 대규모 언어 모델(LLM)과 같은 생성형 AI의 등장은 AI 벤치마크 패러다임에 큰 변화를 가져왔다. 과거 AI 벤치마크는 주로 이미지 분류, 객체 탐지, 음성 인식 등 특정 태스크에 대한 모델의 정확도를 측정하는 데 중점을 두었다. 그러나 LLM은 다양한 태스크를 범용적으로 수행할 수 있는 '일반 지능'에 가까운 능력을 보여주면서, 이를 평가하기 위한 새로운 접근 방식이 요구되고 있다.
멀티모달 벤치마크의 부상: 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 멀티모달(Multimodal) AI 모델의 중요성이 커지면서, 이를 평가하는 벤치마크도 증가하고 있다.
추론 및 상식 벤치마크의 강화: 단순한 패턴 인식이나 데이터 암기를 넘어, 복잡한 추론 능력과 폭넓은 상식 지식을 평가하는 벤치마크가 더욱 중요해지고 있다.
안전성 및 윤리 벤치마크: AI 모델의 편향성, 유해성, 오용 가능성 등 사회적, 윤리적 문제를 평가하는 벤치마크의 중요성이 크게 부각되고 있다. 이는 AI 기술의 책임 있는 개발과 배포를 위해 필수적인 요소로 인식되고 있다.
7.2. 새로운 벤치마크의 중요성
AI 패러다임의 전환은 기존 벤치마크의 한계를 드러내고, 새로운 벤치마크의 필요성을 강조하고 있다.
기존 벤치마크의 포화: 많은 기존 벤치마크 데이터셋에서 최신 LLM 모델들은 이미 인간 수준 또는 그 이상의 성능을 달성하고 있다. 이는 벤치마크가 더 이상 모델 간의 유의미한 성능 차이를 변별하지 못하게 되는 '벤치마크 포화(Benchmark Saturation)' 문제를 야기한다.
새로운 능력 평가의 필요성: LLM은 단순한 답변 생성을 넘어, 복잡한 문제 해결, 창의적인 글쓰기, 코드 디버깅 등 이전에는 상상하기 어려웠던 능력을 보여준다. 이러한 새로운 능력을 정확하게 평가하고 비교할 수 있는 벤치마크가 필수적이다.
실제 적용 환경 반영: 실험실 환경에서의 벤치마크 점수뿐만 아니라, 실제 서비스 환경에서 AI 모델이 얼마나 안정적이고 효율적으로 작동하는지를 평가하는 벤치마크가 중요해지고 있다. 이는 모델의 지연 시간, 처리량, 자원 사용량 등을 포함한다.
지속적인 업데이트와 다양성: AI 기술의 빠른 발전 속도를 고려할 때, 벤치마크 데이터셋과 평가 방식은 지속적으로 업데이트되고 다양화되어야 한다. 단일 벤치마크에 의존하기보다는 여러 벤치마크를 통해 모델의 종합적인 능력을 평가하는 것이 바람직하다.
결론적으로, 벤치마크는 기술 발전의 중요한 이정표이자 가이드라인 역할을 한다. 단순한 숫자 비교를 넘어, 그 의미와 한계를 정확히 이해하고 최신 트렌드를 반영하는 새로운 벤치마크의 개발과 활용은 앞으로도 기술 혁신을 이끄는 핵심 동력이 될 것이다.
참고 문헌
** IBM. (2024, June 25). LLM 벤치마크란 무엇인가요? Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHPMbiQuWLup0NotglIRIKPPis0oF3nwk9ePwQC3DuAyFASlaLKQ6VuIj6ylpUmyS5JTtThhyXujQWYUn0Yj_81jPLGB9XUgXjW8YEwweYeqrIkTbBnjAt_08Yd2FQ7wRw7nQDo_sPEwIeQ1x-M4Lca
** Evidently AI. (n.d.). 30 LLM evaluation benchmarks and how they work. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEnrrC-4H8F4Fr4BjIMY5w9fTdfDew0U2JQ8teQwrFhF7J3zVqHk6r6UZSnJTRXWPOMGuwzPMbvxdfqgR3hhshE0U1Xd-HrhRtyYBuU0UxIMYHIZ58g38zo1Tw1NZRmHiGfd3NjLSyca1920908Kx8=
** Geekbench Official Website. (n.d.). Geekbench. Retrieved from https://www.geekbench.com/
** Maxon. (n.d.). Cinebench. Retrieved from https://www.maxon.net/en/cinebench
** UL Solutions. (n.d.). 3DMark. Retrieved from https://benchmarks.ul.com/3dmark
** MLCommons. (n.d.). MLPerf. Retrieved from https://mlcommons.org/benchmarks/mlperf/
** Hugging Face. (n.d.). Hugging Face Open LLM Leaderboard. Retrieved from https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
** Hendrycks, D., Burns, C., Kadavath, S., et al. (2021). MMLU: Measuring Massive Multitask Language Understanding. arXiv preprint arXiv:2009.03300. Available at: https://arxiv.org/abs/2009.03300
** Symflower. (2024, July 2). How does LLM benchmarking work? An introduction to evaluating models. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFZBrNWitJvZ254iSeeyxMHDG92-rnDR5AW9UGBaTgYqVasZpRn90XXl0iOXgxP2n0onVctRMzTTPFl5qjpt1rRshnuIUdsVOf6Ub32xjHZo9GXuT_DKBipB8aO9kOwTv_NpnHxkym4rG5bdvIaxTprh9oFNJg2fnoW
** Confident AI. (2025, September 1). LLM Evaluation Metrics: The Ultimate LLM Evaluation Guide. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQE8kyq5LguoUk691QGn8lckt3dseaDm106Ahyn4_IJJ0Z_IcXxN_KJVC0a1m9NxMXkNbLFSF1J4tL9IA7mWlnf2SAIqEUG8GTMStwIDVgbmNOnDOQUIf0_MM1Syr-mqTWg6A6L1Z-ZXOcuYOsxdpJrNy6NfojXEGJD8s5ZbITFqCC8xkFeqk1fsTE7WtgnX_jGKXZQVnEQ3QDaQ
** SuperAnnotate. (2025, June 25). LLM Evaluation: Frameworks, Metrics, and Best Practices. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHLXY5eYVpT4E_aAHOzrfRoElightO2e55DmQ_BIS5G_FxXcsRsmGqRxXQjAV0v3uMGfNwAYmQ4M2uzbvU_wH0MSZBN9zcnUkwJSJCqdAHgMSN1_ukorjQLDKewgBTGGJOwMQgrdHLlAEbdc832e8BJGfg=
** IBM. (2024, June 25). What Are LLM Benchmarks? Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEVMzh4AI8hQfPc4qC1xjvLCnwuHipjm-i29HxYkp21v8qIVhi8pKdudK8wR70pvFQacg1o-CsBmZbmbp2kzmPb_qkRAnuPIDIPA_xDg_DmSi4tfR2lvzg3qiE3fBEUtbso4wwbb3ezkbhr
** Orq.ai. (2025, February 26). LLM Benchmarks Explained: Significance, Metrics & Challenges. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFmlFnRMH-wh0fIQ4S-yxpOK1Aw-dmF7oVPzZNw7ZMtBohEjgRhBaNLC-_LQ6tsldm0vDjszlNFq-Jlk5nnqzDDyO-skKMc5Mw8hZN-pFDxXHbv2zUgSh6kAm3Mg=
** Comet. (2025, January 3). LLM Evaluation Metrics Every Developer Should Know. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHELhXS9rFikrt-LVYOccg4IzZyVtyqgz23CCclUZAnxW1yl-EmooEbvl1zCdG3Dhq1m1uhmr7UkJCh_MPGi-1SyQJwTGbGHHdaJcKQC0C8oPjjK49gUnIx9aY_L8gTzn5VOWII6vcIOxMA0JV16QrHLN1E_rFfjxfTqtx3UCoWw9k4-cUniAB4DFSVMOfv
** Tableau. (n.d.). 벤치마크 – 외부에서 기준점을 찾다. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHPaLJQ1wtqRZY7Jh5-N5eeMiAKHBWC4iwHY8ZoOhNzev_iTLQFSIyslSfxe7c7Hc7cLER6oKOwOs52kMh--YiLhRgCL93lvoprlaq5V2yjL1js6K-0Cz4Wm2rhMCmUxVTxd971A4HfQePAD0C2JxOFxSE=
** 가디의 tech 스터디. (2024, May 21). [LLM Evaluation] LLM 성능 평가 방법 : Metric, Benchmark, LLM-as-a-judge 등. Tistory. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFwuuOinMkGdbBb79_pvt9QdseTdvNw1YvY8KDti41oOMyDM2VGisO9iFEQsMt9Ww-oFf2sRrgqKhfDJVaQqnF-FniEaEEHsp1zDy-HMIDQn6dbND6zeO4u
** 셀렉트스타. (2024, August 28). LLM 평가란? 셀렉트스타의 AI 성능 평가 방법. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFRnHKwOGveoOr4zZ82Ocl8ScWSuGxYPtSpEr1-7qvbHxQeQOMxnfNQGspSHhlxOdEYJJU9OjuV0hswvnX69UTtBI_3TjPwZ2HK8BWk1HQjR-9CDs-W6ofcm2cDiepMCrQ1jCvFLljmRCjqbVqvuZ8nWN4=
** 테크원의 IT 테크 용어 사전. (2023, June 16). 벤치마크(Benchmark)란?. Tistory. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFHvsXftZDDk2pIlNnBT_SV7jU2lLEw6FHmc6D5dkflmISjLSgY2dBPKNBwF4G5a-fYp4ZhgXz4B1pvGmF1YGeoUefvhfXFLwhnX1Rrn2Zt_51L0X5isSo=
** Microsoft Learn. (2024, June 25). A list of metrics for evaluating LLM-generated content. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFi5U_LB0HOElrxliJzSzxBpKl9paXPE5QthvTznuAGgWRtNnhJgdrWMQkVATIK8jjZur2cZekWYJpj5dKIcav_7VU3Oy9PK89xgyuQkSdtv-tgzJ7q-vsVkG8ws-uMWjrFi_vh52ugg6QgVJ-ARb92Fkp38vgvRi7iIz62jX-Ql6v3TDp3VPv1qWMj1sxRW0wXUA0Q1UBPip_LfSMyE9uGoHx2ucbOTn5ySD_O5FRefFmAgOccry7y8zVPfQ0=
** Hugging Face. (n.d.). Open LLM Leaderboard. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEU3AU0GBdJNeE-lcgXx-Yn11Cj3SBBYc7y7zM2jDk1HeEqR_Wbok7wyCbkaUg4NPpr3NgOxzEEGXGg3GAZgX4dD3vRHwzIfbjkPf31WnTmbWAl65tCn39VLhteuEKMMeXnEmjU8wI=
** Arize AI. (n.d.). The Definitive Guide to LLM Evaluation. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHj-udpdUpPJ5IVtpVVE7mGn0dt40CBeLqFL8769hMdb9I6UNb7RfznAg1FmT_R7oDVrCROonzuf0wWD0XH7oMG9a_qLPqe6f_6POiH1ngs3baOsj6bR8rUG1o-4w==
** Park, S., Moon, J., Kim, S., et al. (2021). KLUE: Korean Language Understanding Evaluation. arXiv preprint arXiv:2105.09680. Retrieved from https://arxiv.org/abs/2105.09680
** Express Computer. (2024, November 27). Shaping the Future of AI Benchmarking - Trends & Challenges. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHxLu4vgJtAGREMFxdesz5xUnmiShXIMF5aRGoNsXgoInn-2phylnIpqCP_2RWoGYmkChEJ-XBnxlvxwsU7f2CjyfXzNCsaBIizbm_PhH0sD4bWPcNGEjUAyFgEKQqXpkFxC0rqxW2VUWfzWRg1Q0yG6PLvqok0qg8bOJmVzcYLNyA_VMXmUkUvHnacMzEi3PO_2RRvvkmnaJVFmsbzagHRjJnr1GQ=
** NeurIPS Datasets and Benchmarks 1 (2021). KLUE: Korean Language Understanding Evaluation. OpenReview.net. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHa9mAEbVQJ_tysuLHBbxcry0vobgu8tQbXEVzOFWv93AdlQE-MWNgQDV0wcG4grVMREPkciBgc1JAxOe--zuXT7oCYyS6IRJ6PgiggRoANP_cbirJc56Ozp4pkinDlYnWuPGwyX6lDDDpTf_nGmHtoMCFLk-49nhQIr0rnlWs8hyh6Pj91TFn8kpEnNKiGMzZPZ766ljE_gTAciu_pO8hJzQxU5KrdaooI8U_w2UymNtrXxg==
** Comparables.ai. (n.d.). Breakthroughs in Benchmarking Analysis: Exploring the Latest Industry Trends. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGRlJcGowMTLqAeGMHxqP8472yTZbfMvMYUp6nM-I0GAAp-DJOcC6KXHKF6miWjj8d-B2Jb_x53HSsM533vVlQioCKb_hcuTuHJd6z2bLaSPoSwaHRIsvTooO6uYZ656cq4LkLxr7B8f9gwCIpKN0WuDRSOqCgVkcb5RIA3w7dbuO23GdWAsFDkhR8NkWqLUxNn_1OBgpIsvjGTgGyVQRwLScbRhxJq
** everything i care about. (2021, June 29). 가설공사 기준점(bench mark) / 벤치마크. Tistory. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFrqJNyR5E3lNLiMCdBcDsp3QJLK8OkSCzLMFQi24wkI79T2V1LDETQ5D8W5cNm5D_MTpaEPlsvbv1AvImlZxzpzi5rGdyluHloMsAjjCwlLjjd1RQr6Mq1mtJvk9-KiOkrkBE3UrQA3h4L8ONsewe5Z3R17A_wn3nbCx1GuW_QQ9Z0LLUFzdxjgxd-kbQtNwJsPQhualsOPylauD1rNLa6MKheCH4xk8c9yxnEU06kyDZf1JESktkV_ODXEJjlCh_7pkuE4URrhKv6pZtMNubxUvQ==
** 위키백과. (n.d.). 벤치마크 (컴퓨팅). Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFYsYjFwJiW1kHYfL2K0umd1dSkuon6kEB-jzamZSJJQhF-m3KxGWGsxUHe3iAIAEHp8rBTwgOyqjDdWF_EPy1omVEXOizQBcA1-cYRVCDSoGEDoKDo_RwKyYLxHXnFJ1Rjwr1jlCDYmAJG5ZXNk6H_Cfp4iOuzne5mACd9BrRHU2slt-u78zKmZtkaEW6CbXJ3RJDFHEcn0dQH5w==
** KAIST. (n.d.). KLUE: Korean Language Understanding Evaluation. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHVLqU3EX9VxX9IesDQ4sbo11KogXzlBJEKUZA2ljgQjRxT1_Rtmrqj6jZ-Kr3RSNluTP91YBR9kWLAYqo1uE4lSec_IcwlrXWhOM-nmsOvqKH_b-uGcGo_k6pfRumW658z_dGwAVVzxV_nnJrMvvECZJvgF7R5sJng8xIZFx0koSwTWCgxlOpBS_BxBF3vZKXG
** OpenReview. (2021, October 11). KLUE: Korean Language Understanding Evaluation. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEDQWY7JHsGHLQUktcoOdungl9zRV5ccw2RJ8PRs9Zg0I-pvXN38hOnDwaJdymhhhFtie4_q4FsRqZG1V8HPvk7uYG9d7elVOuZYt0WhUxJG-Q3qNFIYPJ-I1ne11VYm-R6qjfLvFU=
** 위키백과. (n.d.). 벤치마킹. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEyPFyGfc-Cj8ausBWvJpTcRT6NxBUeV7TieDZbWH27esdqTR78OgvK-ppYmb5BdaaVe2hUcnx3RqJ9OuVYbfow4Vq6x22-gv0MEbCyd4z4OIcVKjrj9DBsUj2FnT_pDVG1gnAQvFE8zZRhNyuvFJpk43iBPkEtFQaE-ykPCA==
** FasterCapital. (2024, March 5). 벤치마킹: 벤치마크를 사용하여 총 수익률 성과 평가. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQE2x8fFpuWKTuU2uXX9i2-VRL47kmG1AGLHw8uEF_Nmppd1jKLs9vLZzOzsgAIlu9h122ZHIkzcwXAr2VZqS0qSh904GsyJXdW_3tFlCypNQQb6h4iwY74TfmMtXvGk87b3MAbXLZLc91ydVly4WOmSZs7fjBtDDfnJjVfm0tvTmPih21-W37oEXS_enEQWjEmyF0MJFjMhxJUVQUd9LvjfLZThIapx8D-wB_2pR44xGpsCzhhcg_XVBKsPMXdTTWtcnluLqZFdP1GLLmBvXGPqx_Q8KqCTO2CsX0hXUZR5eZq-fz0RUq8Ynbwcam9q72g3_tNBUqMW6gQdrA4eP0HThbD0LHUepGPAbfi7CEDhZ810MJm-3_q4O9K4Zs1a_hHxGHGmu6fmqsx
** GitHub. (n.d.). KLUE - Korean NLU Benchmark. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGnpKsILvNKXlqANh9rb7-aQnqleA-StoCblaPsQrgY2W3H-AsKgYpP-0thYBppNp12B1pwk51HvCb9j8KlU_OqObhWX74d3s5oXZIajLd5P9tonbLKuYKaYpAqGlJmAG5u
** IBM. (n.d.). LLM 평가: AI 모델 테스트가 중요한 이유. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQErzVxMhE1J1xPN7iMxEGoHZIW1oJoSyFvOAQ74y0WrHIqaHe0KVaV1mpaly4aK-F7JRNGYU3aJmPm5Wt9Nsq5eHM5oUyRZ18NioZ-DVdAdsy4X-FrHKLr3OxGSNIuRtbj3x_pwXF6P8r7PGmdXM4TDkzU=
** 주식 벤치마크란 무엇인가? 왜 벤치마크가 개별 수익률보다 중요한가? (2025, April 5). Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFXTQEXO__jlX1yn0j07gKLzW4kj6Zj8-jsDq9tBbNCHuYHxHIy7NMYzMmcVXYIkPIxzrBGDeIh6uvlnxKWMaTPvvj3Hgwom9vAi9nqTMQqctDKSz625le1G1azN8iYKHQwqVZjSe_bdcfI012h8napLkHGe2fKVEX-RgfCRnlHGqiwNB7Kam0930DKFt-xr19B31Y=
** CaseDonebyAI. (2024, July 18). Open-LLM Leaderboard 2.0-New Benchmarks from HuggingFace. YouTube. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGld6smUwYYakFJz83x9LEwWLlUUmffjc3UTbd7DdHDmfueblg14ojUvJtHSw67-Dy1douW7QrIUb-RQMkzajbeyS1qNC1lZcyOdR3ddkAxhwsBfU6by9dQZgD_HCpm8l_Lu0eBxoo=
** ClickUp. (2024, December 7). 최적의 결과를 위한 효과적인 LLM 평가 수행 방법. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQE3b6AsC8-qoa1SCqk63vvoOGG_zeGAxwJyWFcF7E8jMN0Pu6Cs_R1GoAhlHypbHMYYz44yGzIyUQWaoIzXehV7rbzhKjF-40ZuRug2nOpyXyhjKL8EcFMQHOpAH8JH22NUScbBIpRNhQVo7X8=
** AI코리아 커뮤니티. (2024, May 4). 인공지능 평가의 핵심: 벤치마크(Benchmark)의 모든 것. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGzfBfPrlonDpovjHKyAvPRWlVFKrCSm6JNh2fcZ29Pj0R-5mdk0tj1WB6jElclqPbNd-6kM239_pcd6_ZKXp2CnTtAQWKKWvr9XhyZKF0thx0ZIkhtooJrwRpOWE8XxTP4WTqNPAcO4K0KZfhW9ppXLh3foHB6kMk57cCZvEXGrXfxdQGz5_RPW_2AXUaGK_LdzgHp3PcEgrBFkVzhgnNWA7IKQtPhHfebvxlmAQOEwAGkKKK53Wa3JlAHB9jJjCG9S8g5SW7Js8W_Ntp-mH_8ZOqzzySeD5C1VppQ9cLgnuvQV7xU5NXp0TImJNyjxwpV-hsr1sSZjpFau7-jLeXlahubLL4Vig==
** Das, N. (2023, November 25). Simplifying Huggingface's open LLM leaderboard to select the right model. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFbRgRNjQ0MyxpqzFPej8ph53f5drm1iozQi-IoHXxX6jonrlthcD65BL9-AI2gozB7kw1fu5SscWHkgPCf4J7XJpbdLIzfuXwkKXs2bOPTpvnRQtrDTNxYr7Vegp0ENrrHlkH3gy0ju4FO4h04Q248CNncczw_j1l4l1u-wGN5MFdvJEq0nBUYaOchzJ6XERjKeFM94ePRHgjZE3PqjN3-EDOXKGoW5VKhgZ0VqmV5
** 나무위키. (2025, September 17). 벤치마크. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQH4V85KpENGZjGEvGdHNR9aoela2oGhd81SeBkpVRLG9Er1HdRD1c_mHs8NOwzgwJeCYQ6p7Z4xG82Mls-PC-KJsp97o-00dWt2Ncm8q-7hHBFiMNSiK03vc-FniccMWavKJ1Ebfpb5eb8AkAd2HXdKWArq
** 벤치마크. (2025, July 17). [LLM] LLM 모델 평가 방법 - 벤치마크. Tistory. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHQffCOExsjNlVv-QlBszUl3nWgXbhZIqQ8MC9QXlyLqi0D0DLY0DxPRV1H_keSivLz2RbBPfkfDHUH9xqQvDva4B9RyGJ6okxVMxGLJmlfRNMx8I0HY9NHZM_krqvm1M4F4W5YabTAkY83AhE-_PB3zlTTebwt4cSW4rx4Mkk_Xs4hRoXRtgx0MyZSfy58nPlcdQAS7QmeNuEmvkP_HC26EiY-1KEbWv1GDPMB_Ig6jlSaY4zedWcKXAl80-lf9GdjRsEXFV4=
** Hugging Face. (n.d.). Open LLM Leaderboard Archived. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHJR6dyU0Uydv7g_vf3R_gSE4H4UzDdVBL-Yi47trqOigTsEuSUTC1Wl_rq7JD_2gqoyvfP5-pjcy1DglCa8mOIZVX9eFb6c_j2mV0aeYyz598RwQ-x4yrZl-PTauxTXifuSxAVPpwyZ8VkchYh1MD3pMb2z_nQWHURH5ZswT1zLkVP
** AI Flux. (2024, June 26). Chinese AI models storm Hugging Face's Open LLM Leaderboard!. YouTube. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQELkqssaqz0OYPO9Kda5hj-aIaCAF4Wefp11RzgRqCRDQ0VWxaJPs_l1NI0QWfKFKc8RL-EWgOOnDwdsK2_INhtS6BYUCa-FBGCKhd0V_ySau7qI5zqCmhSZiVxQx-svP00XYF-5Xc=
** AI 코리아 커뮤니티 뉴스레터. (2024, April 23). LLM(언어모델) Benchmark 항목, 용어 정리. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGAMTd-VBeGTrNIZaaEqWKlicSTCL1WrdfE3tBvxaUmZFy453W2MzOzQfPo6-ejv1PqnuHXYJ9bzIPpWB1vyAZNO8fsAY7j-kPhWfYKUTlM_QLuUSipfJVPC6mAl7s4IQSh67nInWKVIxfUzQZReYQAMkt36ypjh0Oe-6fsbbjqKDxJ1HU4tw==
** Digital Watch Observatory. (2025, September 22). Emerging AI trends that will define 2026. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHIlIU_gEfA_8-o67ppahsxKMB_2YyT-uIvd-6B56aUITSD6mpEJe-yXxCkWtV3PEf2SfU9ZTCj2G_aTDFR0vg0kdYUu8s1g2sH88pGUC15QAao0TZnzHv3zhbAXAST-DT8EEdJAUSMTBnYhtSBtCsTuwQDb3Reml2xHk4i0Q==
** Novita AI Blog. (2025, January 9). 이해 LLM 메트릭: 모델 성능 향상. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQG9YsqdX-hCbkoteDrPnCrbArdq30QhqzgF426EL8UVpxZ6_GkkCzWe_Qs63V3Mw8iJPIjtKup4T_YAu6k06JiEAi1HIldYSe5NunbcTfZS6-H_afUUB1ROXjtLoo6EuubAUpgSJJKet_pRQJC-zAlrVi9i2N7qeTyXyUgGUDsS1SvjzCL7Jy7c
** Gartner. (n.d.). Emerging Technologies and Trends for Tech Product Leaders. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHx937i6SbnJ6IMfLK9r1dO6JQ734iDUpI3xr_weAQwjULwcjTCeM69u0Qxv-YOIG4tSQ1Dg22zHYOMZ2BHm_iSswx7konaHWb1I0jQVSUa-RlelgzXvwbYX6SNJCPcMZguB55aMzmFulLSSyOT7cftt-es2Me5aG6_iGnrwkBbkdAsE4Mcrg==
** IBM. (n.d.). The Top Artificial Intelligence Trends. Retrieved from https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGVtbIbklIkFB-o8-h_qVxiql0tk9kKLBIXaas_oJLW3BfXn7ndzEZHngghDr52fzx92cwzn6jzri21XizNA5lK4wnaz1eDyDPw35uZkusoAQSIjRGYHv-rWFbymStQLAAGYep9rWF-4YLtvAWrVayviEB-kF69WA04Wpnt
Disclaimer: 이 글은 2025년 9월 현재의 정보를 바탕으로 작성되었으며, 기술 발전과 함께 내용은 변경될 수 있다.
공개는 단순히 모델의 성능을 줄 세우는 것을 넘어선다. 연구팀은 HLE를 통해 AI의 능력과 한계를 정확히 파악함으로써, 향후 더 안전하고 신뢰할 수 있는 AI 정책을 수립하는 데 기여할 것이라고 밝혔다. 인류가 던진 이 ‘최후의 난제’를 AI가 언제쯤 정복할 수 있을지, 전 세계 기술계의 이목이 쏠리고 있다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
