오픈AI가 22일(현지 시각) 공식 블로그를 통해 자사의 인공지능(AI) 브라우저인 ‘ChatGPT 아틀라스(ChatGPT Atlas)’가 ‘프롬프트 인젝션’ 공격에 취약할 수 있다는 점을 공식 인정했다. 프롬프트 인젝션은 웹페이지나 이메일에 몰래 숨겨둔 나쁜 명령을 AI가 진짜 명령으로 착각해 실행하게 만드는 공격 방식이다. 이는 기존의 컴퓨터 프로그램 해킹과는 다른 새로운 종류의 보안 문제로 주목받고 있다.

AI 브라우저는 웹사이트 내용을 읽고 요약하거나 이메일을 대신 써서 보내는 등 스스로 판단해 행동하는 똑똑한 브라우저다. 이런 기능은 매우 편리하지만, 동시에 해커가 AI를 속여서 조종할 수 있는 틈을 만들어주기도 한다. AI 시스템의 특성상 글자로 된 정보를 읽을 때 그 안에 숨겨진 악의적인 지시사항을 완벽하게 걸러내기 어렵기 때문이다.

실제로 보안 전문가들은 ChatGPT 아틀라스가 문서 속의 몇 단어만으로도 원래 하려던 행동을 멈추고 엉뚱한 일을 할 수 있다는 약점을 찾아냈다. 영국의 국가 사이버 보안 센터(NCSC)는 이런 공격을 100% 막아내는 것은 불가능하다고 경고하며, 위험을 최대한 줄이는 방향으로 대비해야 한다고 조언했다. 보안 연구원들은 AI 브라우저가 사용자 대신 많은 일을 할 수 있는 권한을 가진 만큼, 해커에게 노출되었을 때의 위험도 매우 크다고 지적한다.

오픈AI는 이런 공격에 대비하기 위해 스스로를 공격하는 ‘AI 해커(red teaming)’를 강화학습으로 훈련시켜 미리 테스트하고 있다. 이 시스템은 수백 단계에 걸친 복잡한 해킹 시나리오를 가상으로 실행하며, 사람이 미처 생각하지 못한 새로운 공격 방법을 찾아낸다. 여기서 발견된 약점은 즉시 AI 모델에 학습시켜, AI가 해커의 말보다 원래 사용자의 의도를 우선시하도록 훈련하고 있다.

하지만 전문가들 사이에서는 우려의 목소리도 높다. 보안에 민감한 소프트웨어에 아직 완벽하지 않은 기술을 성급하게 적용하고 있다는 비판이다. 대학 교수들은 AI가 데이터와 명령을 제대로 구분하지 못하게 되면, 결국 사용자에게 해를 끼치는 도구가 될 수 있다고 경고한다. 이는 단순히 기술적인 실수가 아니라 AI 시스템의 구조적인 문제라는 지적이다.

오픈AI는 프롬프트 인젝션 문제를 해결하기 위해 계속 노력하겠다고 밝히며 사용자와 기업이 지켜야 할 예방법도 제시했다. AI에게 명령을 내릴 때는 구체적이고 명확하게 지시하고, 중요한 개인정보에 대한 접근은 제한하며, AI가 어떤 작업을 하기 전에 반드시 사람의 확인을 거치도록 설정하는 것이 좋다.

프롬프트 인젝션은 앞으로 AI 기술이 해결해야 할 장기적인 숙제가 될 것으로 보인다. 구글이나 앤트로픽 같은 다른 AI 기업들도 비슷한 보안 전략을 강화할 것으로 예상된다. 따라서 AI 브라우저의 편리함 뒤에 숨겨진 위험을 잘 알고, 보안을 강화하는 노력과 함께 최종적인 결정은 항상 사람이 내리는 ‘인간의 감독’이 반드시 필요하다.

Exit mobile version