AI가 사이버 보안에서 본격적으로 성과를 내기 시작했습니다. Anthropic이 자사 AI 모델 Claude Opus 4.6으로 Mozilla Firefox의 보안 취약점 22개를 단 2주 만에 발견했다고 발표했습니다. 그중 14개는 ‘고위험’으로 분류됐습니다. 이 숫자는 2025년 한 해 동안 Firefox에서 패치된 고위험 취약점의 약 5분의 1에 해당합니다.

20분 만에 첫 번째 버그를 잡았습니다
Anthropic 보안팀은 2026년 1월, Claude Opus 4.6에게 Firefox의 소스코드를 분석하도록 지시했습니다. Firefox를 선택한 이유가 있습니다. 세계에서 가장 오래되고 잘 테스트된 오픈소스 브라우저 중 하나이기 때문입니다. “쉬운 코드에서 버그를 찾는 건 의미가 없다”는 판단이었습니다.
결과는 빨랐습니다. Claude는 탐색 시작 20분 만에 첫 번째 취약점을 찾아냈습니다. JavaScript 엔진에서 발생하는 Use-After-Free(해제 후 사용) 버그였습니다. 이 유형의 버그는 이미 해제된 메모리 영역에 다시 접근하는 것으로, 공격자가 악용하면 임의 코드를 실행할 수 있는 위험한 취약점입니다.
Anthropic 연구원은 이 발견을 가상 환경에서 직접 검증해 오탐(false positive)이 아님을 확인했습니다.
6,000개 파일, 112건의 보고서
2주간의 분석 기간 동안 Claude는 약 6,000개의 C++ 파일을 스캔했습니다. 그 결과 총 112건의 독립적인 보고서를 제출했고, 이 중 22건이 실제 보안 취약점으로 확인됐습니다.
심각도별 분류는 이렇습니다.
| 심각도 | 건수 |
|---|---|
| 고위험(High) | 14건 |
| 중위험(Moderate) | 7건 |
| 저위험(Low) | 1건 |
특히 주목할 만한 것은 CVE-2026-2796입니다. JavaScript WebAssembly 구성 요소에서 발생하는 JIT(Just-In-Time) 컴파일 오류로, CVSS 점수 9.8(10점 만점)을 받았습니다. 이 정도 점수면 ‘치명적’ 수준입니다.
Mozilla는 이 취약점들을 AI 에이전트가 2주 만에 컴파일러를 만든 것처럼 신속하게 대응했고, Firefox 148.0에서 대부분 패치를 완료했습니다.

익스플로잇은 어려웠습니다 — 4,000달러 써서 2건 성공
취약점을 찾는 것과 실제로 악용하는 것은 다른 문제입니다. Anthropic은 발견된 취약점을 실제 공격 코드(익스플로잇)로 전환할 수 있는지도 테스트했습니다.
API 크레딧 약 4,000달러(약 560만 원)를 투입해 수백 번의 시도를 했지만, 성공한 것은 단 2건이었습니다. 그마저도 현대 브라우저의 샌드박스 같은 보안 기능을 의도적으로 제거한 테스트 환경에서만 작동했습니다.
Anthropic은 이 결과에서 두 가지 중요한 시사점을 도출했습니다.
- AI는 취약점 ‘발견’에 훨씬 효율적입니다. 찾는 것보다 공격하는 것이 훨씬 어렵고 비쌉니다.
- AI가 해커를 대체하기는 아직 어렵습니다. 취약점을 무기화하는 능력은 제한적입니다.
이 균형이 보안 업계에서는 좋은 소식입니다. AI가 방어 쪽에서 더 큰 가치를 발휘할 수 있다는 뜻이니까요.
기존 보안 도구가 놓친 것을 AI가 잡았습니다
Mozilla는 별도로 흥미로운 사실을 공개했습니다. Claude가 발견한 취약점 외에도 90개의 추가 버그가 AI 기반 분석 과정에서 발견됐다는 것입니다. 여기에는 assertion failure(검증 실패)와 logic error(논리 오류) 등 전통적인 퍼징(fuzzing) 도구가 놓치기 쉬운 유형이 포함돼 있었습니다.
퍼징은 프로그램에 무작위 데이터를 대량으로 입력해 충돌을 유발하는 방식입니다. 효과적이지만, 코드의 논리적 흐름을 이해하지 못합니다. AI는 코드를 ‘읽고’ 맥락을 파악할 수 있다는 점에서 기존 도구와 보완적인 관계를 형성합니다.
Cursor가 에이전트 8개를 동시에 돌리며 코딩 시장을 흔들고 있는 것처럼, AI가 소프트웨어 개발의 모든 단계에 침투하고 있습니다. 이번엔 그 범위가 보안 감사까지 확장된 셈입니다.
이게 왜 중요한가 — 보안의 게임 체인저가 될 수 있습니다
Firefox는 전 세계 수억 명이 사용하는 브라우저입니다. 그 코드베이스에서 2주 만에 고위험 취약점 14개를 찾아냈다는 것은, AI 기반 보안 감사의 효율성이 실전에서 검증됐다는 의미입니다.
지금까지 대규모 코드 보안 감사는 전문 인력이 수개월에 걸쳐 수행하는 고비용 작업이었습니다. AI가 이 과정을 2주로 단축할 수 있다면, 그동안 보안 감사를 받지 못했던 중소규모 오픈소스 프로젝트에도 기회가 열립니다.
물론 AI가 모든 취약점을 찾을 수 있다는 뜻은 아닙니다. 112건 보고 중 22건만 실제 취약점이었다는 점에서, 여전히 인간 전문가의 검증이 필수적입니다. 하지만 AI 에이전트가 통제 없이 움직이면 위험하다는 교훈과 함께, “AI를 어떻게 잘 쓸 것인가”에 대한 좋은 사례가 되고 있습니다.
Anthropic과 Mozilla의 이번 협력은 AI 보안 연구의 새로운 기준점이 될 가능성이 높습니다. 앞으로 다른 브라우저와 오픈소스 프로젝트에서도 비슷한 AI 보안 감사가 이어질지 주목됩니다.
