구글이 제미나이 3 딥씽크(Gemini 3 Deep Think)의 대규모 업그레이드를 발표했다. ARC-AGI-2 벤치마크에서 84.6%를 달성하며 업계 최고 수준의 추론 능력을 입증했다. 수학·물리·화학 올림피아드에서 금메달 수준의 성과를 거두며, 실제 과학 연구에서도 인간이 놓친 오류를 발견하는 성과를 보였다.

 

실제 연구에서 인간이 놓친 오류 발견

구글이 자사 AI 모델 제미나이 3(Gemini 3)의 특수 추론 모드인 ‘딥씽크(Deep Think)’의 대규모 업그레이드를 2월 12일(현지시각) 발표했다. 구글 딥마인드 블로그를 통해 공개된 이번 업데이트는 “과학, 연구, 공학 분야의 현대적 과제를 해결하기 위해 설계됐다”고 밝혔다.

딥씽크는 여러 가설을 동시에 탐색하는 ‘고급 병렬 추론(advanced parallel reasoning)’ 방식을 사용해 복잡한 문제에 대해 더 깊고 정확한 해답을 도출한다. 수학, 과학, 논리 문제를 포함한 복잡한 작업에서 반복적인 추론 라운드를 통해 여러 가설을 동시에 탐색하는 것이 핵심 기술이다.

이번 업그레이드된 딥씽크는 주요 AI 벤치마크에서 전례 없는 성과를 기록했다. ARC 프라이즈 재단이 검증한 ARC-AGI-2 벤치마크에서 84.6%를 달성했으며, 기존 ARC-AGI 1 벤치마크에서는 96%를 기록해 사실상 해당 벤치마크를 완전히 정복했다.

‘휴머니티 라스트 이그잼(Humanity’s Last Exam)’은 현대 최첨단 AI 모델의 한계를 테스트하기 위해 설계된 벤치마크인데, 딥씽크는 도구 없이 48.4%라는 새로운 기준을 세웠다. 코드포스(Codeforces) 프로그래밍 경진대회에서는 3,455 엘로(Elo) 점수를 기록했으며, 2025년 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 달성했다.

딥씽크는 수학과 코딩을 넘어 과학 전 분야로 역량을 확장했다. 구글에 따르면 업데이트된 딥씽크는 2025년 국제물리올림피아드(IPhO)와 국제화학올림피아드(IChO) 필기 시험에서 금메달 수준의 결과를 달성했다. 복잡한 실험 데이터 해석, 코드를 통한 물리 시스템 모델링, 복잡한 최적화 문제 해결 등에서 뛰어난 능력을 보여준다. 9투5구글(9to5Google)은 이번 업그레이드가 “AI 추론의 경계를 넓히는 것”이라고 평가했다.

딥씽크의 실용성은 이미 학계에서 입증되고 있다. 럿거스 대학교의 수학자 리사 카본(Lisa Carbone)은 고도로 기술적인 수학 논문 검토에 딥씽크를 활용했다. 놀랍게도 딥씽크는 인간 동료 심사를 통과했던 논문에서 미묘한 논리적 결함을 성공적으로 발견했다.

듀크 대학교 왕 랩(Wang Lab)에서는 반도체 소재 발견을 위한 복잡한 결정 성장 제조 방법을 최적화하는 데 딥씽크를 활용하고 있다. 또한 손으로 그린 스케치를 분석해 복잡한 형상을 모델링하고, 3D 프린팅이 가능한 파일을 생성하는 기능도 선보였다.

업그레이드된 제미나이 3 딥씽크는 현재 구글 AI 울트라(Google AI Ultra) 구독자를 대상으로 제미나이 앱에서 이용 가능하며, 기업 사용자를 위해 제미나이 API를 통해서도 제공된다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version