AI 기술의 발전이 사이버 보안 분야에 새로운 전환점을 마련하고 있다. 스탠포드 대학 연구팀이 개발한 AI 해킹 도구 ‘아르테미스(Artemis)’가 최근 실험에서 인간 침투 테스터 10명 중 9명을 능가하는 성과를 보여주었다. 이 실험은 AI가 네트워크 취약점을 탐지하는 데 있어 인간 전문가의 능력을 대체할 수 있음을 시사한다.
AI 해킹 도구는 단순한 보조 도구를 넘어 전문 해커 수준의 능력을 갖추고 있다. 특히, 아르테미스는 스탠포드 공대 네트워크에서 취약점을 빠르게 찾아내며 그 성능을 입증했다. 그러나 이러한 AI 기반 도구는 LLM(대형 언어 모델)의 구조적 한계로 인해 프롬프트 인젝션 공격에 취약하다. 프롬프트 인젝션은 LLM이 신뢰된 명령과 외부 입력을 구분하지 못하는 문제에서 비롯되며, 이는 전통적인 웹 보안의 XSS(크로스 사이트 스크립팅)와 유사한 공격 방식이다.
아르테미스는 시간당 운영 비용이 약 60달러로, 인간 테스터의 하루 비용(2,000~2,500달러)보다 훨씬 저렴하다. 그러나 18%의 오탐률을 보이며, 인간 테스터가 발견한 명백한 취약점을 놓치는 한계도 드러났다. 그럼에도 불구하고 연구자들은 AI가 보안 취약점을 대규모로 탐지할 수 있는 잠재력을 지닌다고 강조한다.
하지만 이러한 AI 해킹 도구 자체가 새로운 보안 위협에 노출되어 있다는 연구 결과도 있다. 논문 “사이버보안 AI: 프롬프트 주입 공격으로 AI 해커를 해킹하다(Cybersecurity AI: Hacking the AI Hackers via Prompt Injection)”는 AI 기반 사이버보안 도구가 프롬프트 인젝션 공격에 취약함을 밝혔다. 이러한 공격은 LLM(대형 언어 모델)이 신뢰된 명령과 외부 입력을 구분하지 못하는 구조적 한계에서 비롯된다. 전통적인 웹 보안의 XSS(크로스 사이트 스크립팅)와 유사한 방식이다.
실험 결과, 7가지 유형의 공격 벡터에 대해 평균 91.4%의 성공률을 기록했으며, 평균 침투 시간은 20.1초였다. 이는 AI 해킹 도구가 공격자에 의해 역이용될 수 있음을 의미한다.
이에 대응하기 위해 연구팀은 4계층 방어 아키텍처를 제안했다. 이 아키텍처는 샌드박스/가상화, 도구 수준의 필터링 및 데이터 래핑, 파일 쓰기 방지, AI 기반 및 패턴 기반의 입력·출력 검증을 포함한다. 실험에서 이 방어 체계는 모든 공격 벡터에 대해 0% 성공률을 달성했으며, 지연 시간은 평균 +12ms, 오탐률은 <0.1%, CPU 오버헤드는 <2%로 매우 효율적이었다.
AI 기반 해킹 도구의 발전은 사이버보안의 패러다임을 변화시키고 있다. AI는 공격과 방어 양측에서 핵심 역할을 하며, 사이버 보안의 미래는 AI 기술의 발전과 함께 AI 자체의 보안 강화에도 크게 의존할 것으로 예상된다.
© 2025 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.

