앤트로픽 Mythos, 27년 묵은 OS 버그를 스스로 찾았습니다

AI 회사가 자기 모델을 “공개하지 않는다”고 선언하다

4월 7일, Anthropic이 Project Glasswing이라는 이니셔티브를 발표했습니다. 발표 내용은 충격적이었습니다. Anthropic이 자체 개발한 차세대 모델 Claude Mythos Preview를 12개 파트너사와 40여 개의 핵심 인프라 운영 기관에만 공개하고, 일반 대중에게는 공개하지 않겠다는 선언이었기 때문입니다. AI 회사들이 지금까지 자신의 모델을 공개해 온 관례를 생각하면 이는 매우 이례적인 결정이었습니다.

이 발표는 Anthropic 공식 블로그(anthropic.com/glasswing)와 동시에 Anthropic Red Team의 기술 블로그(red.anthropic.com/2026/mythos-preview/)에 게시됐습니다. 안전팀의 Nicholas Carlini, Newton Cheng, Keane Lucas 등이 저자로 나섰다는 사실 자체가, 이것이 단순한 마케팅 발표가 아니라 보안과 안전에 관한 진지한 기술 보고서임을 암시합니다.

3월 말의 충격과 4월 7일의 응답

사실 Anthropic에게 4월 7일은 위기 대응의 날이기도 했습니다. 3월 말, Anthropic 내부 데이터가 유출되면서 Claude Mythos 모델의 존재가 외부에 먼저 알려졌습니다. 이 소식이 시장에 번지자 금융 시장은 민감하게 반응했습니다. 사이버보안 관련 기업들의 시가총액이 총 21조 원대 손실을 기록했는데, 이는 시장이 Mythos라는 이름만으로도 “이것은 위험한 모델이다”라는 신호를 본능적으로 감지했다는 의미입니다. 지난달 유출 사건에서 촉발된 불안감 속에서, Anthropic은 4월 7일 정식 발표로 처음 공식 입장을 내놓았습니다.

유리날개 나비의 이중 의미

Project Glasswing이라는 이름은 Greta oto라는 유리날개 나비에서 따온 것입니다. Anthropic은 이 메타포를 두 가지 방식으로 설명합니다. 첫째, 나비의 투명한 날개가 한눈에 보이는 곳에서도 자신을 숨기게 해 주는 것처럼, Mythos가 찾아낸 취약점들도 겉으로는 드러나지 않은 채 인프라 깊은 곳에 숨어 있었다는 의미입니다. 둘째, 그 투명함이 나비를 해로부터 지켜 주는 것처럼, Anthropic이 지향하는 투명성과 공개적인 안전 기준도 결국 모든 사람을 보호하는 방식이라는 메시지입니다. “강력할수록 더 조심스럽게 다뤄야 한다”는 회사의 철학이 한 마리 나비 안에 함축돼 있는 셈입니다.

AI 업계 역사상 처음 보는 결정

지금까지 AI 회사들은 어떤 형태로든 자신의 모델을 공개해 왔습니다. OpenAI는 ChatGPT를, Google은 Gemini를, Meta는 Llama를 세상에 풀었습니다. 내부용과 공개용 모델의 구분은 늘 있었지만, 이렇게 명시적으로 “이 모델은 공개하지 않는다”고 선언한 사례는 거의 없습니다. Anthropic이 이번 결정을 통해 보내는 메시지는 분명합니다. 안전과 보안이 먼저이며, 기술 공개의 관례보다 책임 있는 배포가 더 중요하다는 입장입니다. 12개 파트너사와 40여 개 핵심 인프라 운영 기관이라는 제한된 범위에서 90일간 배포 후 학습 내용을 공개 보고서로 발표하겠다는 약속도, 이것이 단순한 보안 은폐가 아니라 체계적인 안전 검증 프로세스임을 보여줍니다.

그렇다면 도대체 Mythos가 어떤 모델이기에 Anthropic 스스로 이런 결정을 내렸을까요. 그 답은 같은 날 공개된 기술 보고서의 수치 안에 있었습니다.

벤치마크가 말하는 것

Anthropic이 공개한 네 가지 벤치마크 결과는 Mythos Preview의 능력을 정량적으로 입증합니다.

벤치마크	Mythos Preview	Opus 4.6
CyberGym (취약점 재현)	83.1%	66.6%
SWE-bench Pro	77.8%	53.4%
Terminal-Bench 2.0	82.0%	65.4%
SWE-bench Verified	93.9%	80.8%

특히 주목할 부분은 CyberGym과 Terminal-Bench 같은 실제 보안 환경 벤치마크에서 16~24포인트씩 앞서간다는 점입니다. SWE-bench Pro는 코드 작성 능력을 평가하는데, 53.4%에서 77.8%로 1.46배 향상된 것은 단순한 성능 개선을 넘어선 변화입니다. 이는 “보안 문제를 찾을 수 있다”는 차원을 넘어, 발견한 결함을 곧장 동작하는 익스플로잇 코드로 옮길 수 있다는 의미입니다.

자동화 도구도 놓친 것을 찾다

OSS-Fuzz(구글이 운영하는 자동화 퍼징 테스트)와 Firefox JavaScript 엔진(SpiderMonkey)에서의 결과는 더 무겁습니다.

OSS-Fuzz 환경에서 Mythos Preview는 595건의 보통 수준 익스플로잇(Tier 1-2)과 함께, 10건의 완전한 제어 흐름 탈취(Tier 5) 익스플로잇을 만들었습니다. 같은 환경에서 이전 모델 Opus 4.6은 250~275건(Tier 1-2)과 단 1건(Tier 3)에 그쳤습니다. Tier 5는 공격자가 대상 시스템을 거의 완벽히 장악할 수 있는 최상위 등급입니다.

Firefox SpiderMonkey에서는 격차가 더 극단적입니다. Opus 4.6은 수백 회 시도 중 단 2건의 익스플로잇만 성공했지만, Mythos Preview는 181건을 성공시켰고, 추가로 29건은 레지스터를 직접 제어하는 수준까지 도달했습니다. 같은 벤치마크에서 약 90배의 성능 향상입니다. 지난달 클로드가 파이어폭스에서 22개 취약점을 찾아낸 사건이 가벼운 워밍업처럼 보일 정도입니다.

AI 자율 취약점 발견 시각화, AI generated — Mythos가 자율로 발견한 보안 취약점을 시각화

27년 묵은 버그가 깨어났습니다

수치보다 무거운 것은 구체적인 사례들입니다.

OpenBSD SACK 구현 버그 — 27년 동안 잠자던 원격 크래시 취약점입니다. 방화벽, VPN, 라우터 같은 핵심 네트워크 인프라가 그동안 고스란히 노출돼 있었습니다. Mythos가 이를 찾아냈습니다.

FFmpeg H.264 코덱 취약점 — 16년 동안 숨어 있던 결함입니다. 구글의 OSS-Fuzz가 500만 회 이상 자동화 테스트를 돌렸지만 한 번도 잡아내지 못했던 것을, Mythos가 발견했습니다. 이미지·영상·스트리밍 서비스의 핵심 라이브러리입니다.

FreeBSD NFS RPC (CVE-2026-4747) — 가장 기술적으로 복잡한 사례입니다. 원격 비인증 공격자가 root 권한을 획득할 수 있는 취약점인데, 시작은 128바이트 스택 버퍼 오버플로우입니다. 거기서 끝나지 않고, Mythos는 6단계의 ROP 체인(Return-Oriented Programming chain — 프로그램 자체의 기존 코드 조각을 재활용해 공격 코드를 만드는 기법)을 다중 패킷으로 분할 실행하는 완전한 익스플로잇을 1시간 이내에 자율로 개발했습니다. 사람이 손으로 짜는 익스플로잇 개발과 같은 수준입니다.

Linux 권한 상승 체인 — 단일 버그로는 부족하니, KASLR(Kernel Address Space Layout Randomization — 메모리 주소를 무작위로 배치해 공격을 어렵게 만드는 보안 기법)을 우회하고, 힙 스프레이(heap spray — 메모리 버그를 재현하기 위해 특정 패턴으로 메모리를 채우는 기법)를 활용해 2~4개 취약점을 순차적으로 엮어 root 권한을 확보하는 공격을 구성했습니다.

보안 훈련 없이 밤사이 만든 익스플로잇

Anthropic이 보고서에서 가장 강조한 한 줄이 있습니다. “정식 보안 훈련을 받지 않은 Anthropic 엔지니어들이 밤사이에 완전한 원격 코드 실행 익스플로잇을 손에 넣었다”는 일화입니다. 단순한 버그 발견이 아니라, 동작하는 공격 도구를 만들어 낸 것입니다.

이것이 Project Glasswing의 진짜 메시지입니다. 기술 벤치마크 수치도 충분히 충격적이지만, 더 무거운 변화는 “누가 이것을 할 수 있는가”의 경계가 사라졌다는 사실입니다. 전문 보안 팀이 아닌 평범한 개발자도 세계에서 가장 복잡한 시스템의 가장 깊은 취약점을 자율로 찾아내는 시대가 열렸습니다. 모든 사례가 초기 프롬프트 이후 인간 개입 없이 자율로 진행됐다는 점이 이 사건의 본질입니다. 발견된 취약점의 99% 이상은 아직도 패치되지 않은 상태이고, Anthropic이 이 때문에 대부분의 디테일을 공개하지 않고 있습니다.

Anthropic의 CTO Rahul Patil은 이번 발표를 둘러싼 상황을 한 문장으로 정리했습니다. “코드를 작성하는 속도가 이제 그 코드의 취약점을 검사하는 속도보다 빠릅니다.” 단순한 성능 비교가 아닙니다. AI가 인간 보안 엔지니어보다 더 빨리 악용 가능한 코드를 만들 수 있다는 뜻이며, 사이버보안 생태계의 근본적 비대칭이 시작됐다는 진단입니다.

Anthropic은 왜 안 풀기로 했는가

Anthropic이 12개 기업과 40여 개 핵심 인프라 기관만 Mythos에 접근하도록 제한한 결정의 배경에는 명확한 논리가 있습니다. Anthropic Red Team은 공식 보고서에서 “99% 이상의 발견 취약점은 아직 패치되지 않았으므로 공개하는 것은 무책임할 것”이라고 못박았습니다. Mythos 수준의 능력을 가진 모델이 통제 없이 풀렸을 때 실제 인프라가 받을 피해를 막겠다는 의도입니다.

더 근본적으로, Anthropic은 설립 이래 추구해 온 철학 — 가장 위험한 능력을 먼저 찾고 그 위험을 관리한다는 — 을 실행에 옮긴 셈입니다. Daniela Amodei Anthropic 회장은 “이 정도 규모의 사이버 방어는 팀워크입니다. 프론티어 연구소, 소프트웨어 회사, 보안 연구자, 오픈소스 메인테이너, 정부가 모두 함께 일해야 방어자가 앞서갈 수 있습니다”라고 밝혔습니다. 그러면서 “우리의 궁극적 목표는 사용자들이 Mythos급 모델을 안전하게 대규모로 배포할 수 있게 하는 것”이라고 덧붙였습니다. 지금의 제한이 영구적이 아니라 과도기적 조치라는 입장입니다. 지난주 보도된 클로드의 폭발적 매출 성장 흐름 속에서 나온 이번 결정은, 단순한 기술 발표가 아니라 회사의 안전 정책 전환점으로 읽힙니다.

안전 책임인가, 권력 중앙화인가

이 결정의 의미는 양가적입니다.

한편으로 이는 AI 업계에서 보기 드문 명시적 위험 선언입니다. 자사가 만든 가장 위험한 능력을 스스로 제한하겠다고 공언한 기업은 Anthropic이 처음에 가깝습니다. 안전을 이유로 한 기술 공개 제한은 핵무기, 암호화, 생명공학의 역사 속에서 손에 꼽을 만큼만 있었던 선례입니다. 책임감 있는 선택으로 볼 수 있습니다.

그러나 다른 각도에서 보면 권력 집중입니다. Mythos 능력이 소수의 빅테크와 핵심 인프라 기관에만 주어진다는 뜻입니다. 일반 보안 연구자, 중소 IT 기업, 비파트너 국가는 같은 위험에 노출되지만 같은 도구는 받지 못합니다. 방어 능력의 불평등이 한 단계 깊어지는 셈입니다. OWASP 창립자 Jeff Williams는 한 인터뷰에서 “Anthropic이 이 모델의 악의적 사용을 제한할 수 있을지는 매우 의문스럽다”고 지적했습니다. 윤리적 의도와 현실적 통제력 사이의 간극을 의심하는 시선입니다.

더 중요한 질문은 이 통제가 얼마나 오래 유지될 수 있느냐는 것입니다. 전 Facebook·Yahoo CSO이자 Corridor 최고제품책임자 Alex Stamos는 “6개월 내에 오픈소스 모델들이 Mythos 수준의 능력을 따라잡을 것”이라고 평가했습니다. Anthropic의 선택이 윤리적이라 할지라도, 유사한 능력의 모델이 통제 없이 풀릴 미래는 피하기 어렵다는 진단입니다. 보안 전문가들 사이에서는 “위험한 AI로부터 보호받으려면 먼저 그것을 만들어야 한다”는 구조적 모순이 이번 사건에도 그대로 적용된다는 분석이 나옵니다. Mythos 능력의 존재 자체가 이미 위협인데, 접근 제한만으로 안전을 확보할 수 있겠느냐는 의문입니다.

AI 통제와 책임의 균형, AI generated — 안전 책임과 권력 중앙화 사이의 균형

한국 보안 업계가 읽어야 할 한 가지

이번 사건이 한국에 시사하는 바는 명확합니다. 이제 Mythos 수준의 취약점 탐지 능력은 가설이 아니라 이미 존재하는 위협입니다. 한국 보안 업계와 IT 리더들이 받아갈 메시지는 하나로 압축됩니다. 우리 조직이 Mythos 수준의 능력을 가진 상대를 상정하고 있는가라는 질문이, 이제는 선택이 아니라 출발점입니다. “혹시 모르니” 방어가 아니라 “반드시 올 것으로” 준비하는 단계로 이미 넘어왔습니다. 제로데이 하나 둘이 발견되는 수준이 아니라, 시스템의 구조적 결함이 한꺼번에 드러날 수 있다는 시나리오를 전제하고 아키텍처 단계부터 다시 들여다봐야 한다는 뜻입니다.

Anthropic이 한 걸음 물러섰을 때, 그들과 다른 신념을 가진 누군가도 같은 선택을 할까요. 그 질문 앞에 우리는 지금 서 있습니다.