하버드 의대 연구팀이 오픈AI의 o1 모델로 응급실 진단 실험을 진행한 결과, AI가 두 명의 응급의학과 전문의보다 높은 진단 정확도를 기록했다. 76명의 실제 환자 데이터를 기반으로 한 이번 연구는 AI 의료 진단의 가능성과 한계를 동시에 보여준다.
오픈AI o1, 진단 정확도 67%로 의사 추월
하버드 의대(Harvard Medical School)와 베스 이스라엘 디커니스 메디컬 센터(Beth Israel Deaconess Medical Center) 공동 연구팀이 진행한 이번 연구에서, 오픈AI의 추론 모델 o1은 응급실 환자 76명에 대해 “정확하거나 매우 유사한 진단”을 67%의 확률로 제시했다. 반면 두 명의 응급의학과 전문의는 각각 55%와 50%의 정확도를 보였다. 특히 초기 트리아지(환자 분류) 단계에서 AI와 의사 간 격차가 가장 두드러졌다. o1은 매사추세츠 종합병원(Massachusetts General Hospital)이 뉴잉글랜드 의학저널(NEJM)에 발표한 희귀질환 사례에서도 뛰어난 성과를 보였다.
GPT-4o와의 비교: 추론 능력이 핵심
연구팀은 오픈AI의 또 다른 모델인 GPT-4o도 함께 테스트했다. 각 진단 접점(diagnostic touchpoint)에서 o1은 GPT-4o와 두 명의 의사 모두를 상회하거나 동등한 수준을 유지했다. 이는 단순한 패턴 매칭이 아닌, 단계적 추론 능력이 의료 진단에서 결정적 차이를 만든다는 것을 시사한다. 연구 결과는 사이언스(Science)와 하버드 매거진(Harvard Magazine)에 게재되어 학계의 주목을 받고 있다.
실제 임상 적용까지는 갈 길 멀어
| 구분 | AI (o1) | 의사 A | 의사 B |
|---|---|---|---|
| 진단 정확도 | 67% | 55% | 50% |
| 대상 환자 수 | 76명 | 76명 | 76명 |
| 희귀질환 진단 | 우수 | 보통 | 보통 |
| 비언어적 단서 활용 | 불가 | 가능 | 가능 |
| 영상·촉진 활용 | 불가 | 가능 | 가능 |
연구진은 AI가 실제 생사를 결정하는 임상 현장에 즉시 투입될 수 있다고 주장하지는 않았다. 논문의 주요 한계로 “AI는 텍스트 기반 정보에만 의존했으며, 실제 임상에서 의사는 영상, 소리, 비언어적 단서 등 다양한 입력을 종합해 진단한다”는 점을 명시했다. NPR과의 인터뷰에서 연구 책임자는 “이번 결과는 AI가 의사를 대체한다는 의미가 아니라, 보조 도구로서 잠재력이 있음을 보여준다”고 강조했다.
한국 의료계에 던지는 시사점
한국은 응급실 과밀화 문제가 심각하다. 대한응급의학회 자료에 따르면 응급실 체류시간 중앙값이 4시간을 넘는 상황에서, AI 트리아지 보조 도구는 환자 분류 속도를 획기적으로 높일 수 있다. 다만 한국의 의료 AI 규제 환경과 의료진의 법적 책임 문제가 선결 과제로 남아 있다. 하버드의 이번 연구는 AI 진단 도구의 임상 검증 기준을 제시했다는 점에서 국내 AI 헬스케어 산업에도 중요한 참고 사례가 될 전망이다.
전망: AI 의료 진단의 다음 단계
이번 연구가 학계에서 주목받는 이유는 실험실이 아닌 실제 응급실 환자를 대상으로 했기 때문이다. 향후 멀티모달 AI 모델(영상, 텍스트, 음성 통합)이 발전하면 비언어적 단서까지 분석할 수 있는 시스템이 등장할 것으로 예상된다. 구글, 마이크로소프트도 의료 AI 연구에 막대한 투자를 이어가고 있어 경쟁이 본격화되고 있다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


