6월 22일이 지나면 Claude Fable 5를 쓰는 데 크레딧이 필요합니다. 지금은 Claude Pro·Max·Team·Enterprise 구독자라면 추가 비용 없이 사용할 수 있는 무료 기간 중입니다. 유료 구독을 이미 쓰고 계신 분이라면, 이 글을 읽고 2주 안에 직접 확인해볼 가치가 충분합니다. SWE-bench Verified 기준 역대 최고 점수 95.0%를 받은 모델이니까요.
2026년 6월 9일, Anthropic은 Claude Fable 5와 Claude Mythos 5를 동시에 발표했습니다. 두 모델은 이름도 다르고 대상도 다릅니다. Fable 5는 일반 구독자에게 열려 있는 “Mythos급(Mythos-class)” 모델이고, Mythos 5는 사전 승인된 사이버보안·인프라 기관만 접근할 수 있는 별도 모델입니다. 이번 글에서 다루는 건 Fable 5입니다.
왜 하필 지금인가 — 경고 직후의 발표
이번 발표를 두고 가장 많이 언급된 맥락은 타이밍이었습니다. TechCrunch는 발표 당일, AI가 너무 위험해지고 있다고 경고한 지 며칠 만에 가장 강력한 모델을 공개했다는 점을 짚었습니다.
Anthropic은 그동안 AI 안전성을 최우선 가치로 내세워온 회사입니다. 그 회사가 경쟁사들과의 성능 경쟁에서 한 발 더 나아간 모델을 내놓은 것은, 단순한 신제품 발표 이상의 의미를 갖습니다. 안전을 내세우면서도 앞서 나가야 한다는 두 압력 사이에서, 회사가 어떤 선택을 했는지를 보여주는 장면이기도 합니다.
Anthropic이 내세운 대답은 명확했습니다. Mythos 5를 미국 정부 협력 프로젝트인 Project Glasswing 프레임 아래 사전 승인 기관에만 공개하면서, 가장 민감한 용도의 모델은 일반에 열어두지 않는 방식을 택했습니다. Fable 5는 그 선 안쪽에 있는 모델입니다.
발표 시점과 전략 모두, 시장에 뒤처지지 않으면서도 통제 가능한 범위 안에서 공개한다는 Anthropic 특유의 접근법을 보여줍니다.
Claude Fable 5 — 무엇이 달라졌나
Fable 5는 Anthropic이 “Mythos급”이라고 표현할 만큼, 기존 Claude 라인업에서 성능 면에서 한 단계 올라선 모델입니다.
가장 눈에 띄는 수치는 코딩 벤치마크입니다. SWE-bench Verified에서 95.0%를 기록했는데, 이는 현재까지 공개된 모델 중 역대 최고 점수입니다. Claude Opus 4.8이 지난 발표 때 GPT-5.5와의 코딩 격차를 10%p 벌렸다는 평가를 받았는데, 그 흐름이 Fable 5에서도 이어지고 있습니다. 코딩 AI 분야에서 Anthropic이 어떤 위치를 잡으려 하는지가 이 숫자 하나에 담겨 있습니다. (Claude Opus 4.8 출시 당시 GPT-5.5와의 격차 분석을 참고하시면 맥락이 더 명확하게 보입니다.)
물론 숫자만 보고 결론 내리기는 이릅니다. 95.0%라는 점수가 실제 개발 작업에서 어떤 경험으로 이어지는지, 수치 하나하나를 실제 맥락과 함께 들여다보겠습니다.
숫자로 보는 Fable 5: 경쟁사와 얼마나 차이가 날까요
벤치마크에서 가장 눈여겨볼 숫자는 도입에서 언급한 95.0%가 아니라 SWE-bench Pro 점수입니다. SWE-bench Pro는 코딩 에이전트 평가 중에서도 Verified보다 훨씬 까다로운 실제 오픈소스 이슈들로 구성된 테스트인데, 여기서 Fable 5는 80.3%를 달성했습니다.
| 모델 | SWE-bench Pro | 차이 |
|---|---|---|
| Fable 5 | 80.3% | — |
| Opus 4.8 | 69.2% | -11.1점 |
| GPT-5.5 | 58.6% | -21.7점 |
| Gemini 3.1 Pro | 54.2% | -26.1점 |
같은 회사 모델인 Opus 4.8과도 11점 넘게 벌어졌고, OpenAI의 최신 모델 GPT-5.5와는 21.7점 차이가 납니다. 숫자만 보면 한 세대가 아니라 두 세대쯤 앞서 있는 것 같은 인상을 줍니다.
단, 공정하게 짚고 넘어가야 할 지점도 있습니다. Terminal-Bench 2.1 — 터미널 명령어 실행과 시스템 조작 능력을 평가하는 테스트 — 에서는 GPT-5.5가 82.7%로 Fable 5(80.5%)를 앞섰습니다. OpenAI GPT-5.5 출시 — 코딩 82.7%·가격 2배 정리에서 정리했듯이, GPT-5.5는 터미널 중심 작업에서 여전히 강점을 유지하고 있습니다. 모든 항목에서 Fable 5가 압도하는 건 아닙니다.
에이전트 작업 효율도 주목할 만합니다. oFox AI 측정 결과에 따르면, 동일한 작업을 완료하는 데 Opus 4.8보다 약 25~30% 적은 턴 수가 필요했습니다. 단순히 정답률이 높아진 게 아니라, 문제를 해결하는 방식 자체가 더 효율적으로 바뀌었다는 의미입니다. API 비용을 직접 쓰는 개발팀 입장에서는 이 수치가 벤치마크 점수보다 더 실질적으로 와닿을 수 있습니다. 에이전트 작업은 매 턴마다 토큰이 누적되는 구조이기 때문에, 턴 수 25~30% 감소는 곧 API 호출 비용의 직접적인 절감으로 이어집니다. 특히 대규모 코드베이스를 다루는 장시간 에이전트 워크플로우라면 그 차이가 더욱 뚜렷하게 드러납니다.

가격은 두 배, 그런데도 매력적인 이유
성능이 좋아졌다면 가격도 올랐습니다. Fable 5의 API 요금은 입력 $10 / 출력 $50 (백만 토큰 기준)으로, Opus 4.8의 정확히 두 배입니다. 출력 기준으로 환산하면 1백만 토큰당 약 7만 원 수준입니다.
그런데 단순히 “비싸진다”로 읽으면 반쪽짜리 해석입니다. 컨텍스트 윈도우가 1M 토큰이고, 이 전체 범위에 추가 요금이 없습니다. GPT-5.5는 272K 토큰을 초과하면 별도 surcharge가 붙는 구조인데, Fable 5는 1M까지 단일 요금입니다. 대규모 코드베이스 전체를 한 번에 컨텍스트에 올려야 하는 작업이라면 실제 비용 구조가 역전될 수도 있습니다. 최대 출력도 요청당 128k 토큰으로, 긴 코드 생성이나 문서 작업에서 중간에 잘리는 상황이 줄어들 것으로 보입니다.
Anthropic이 이번 모델에서 특히 공을 들인 부분은 안전장치입니다. 사이버보안, 생물학, 화학, 모델 증류(distillation) 관련 요청이 들어오면 Fable 5 대신 Opus 4.8로 자동 폴백하는 구조를 적용했습니다. 이 폴백이 발동되는 건 전체 세션의 5% 미만이라고 Anthropic 측은 밝혔습니다. 즉, 일반적인 개발·분석 작업에서는 거의 영향이 없다는 뜻입니다.
보안성 검증도 이전 모델과 다르게 접근했습니다. 출시 전 1,000시간 이상의 탈옥 시도 테스트를 거쳤고, TechCrunch가 확인한 결과 “범용 탈옥 없음”이라는 결론이 나왔습니다. 범용적으로 통하는 우회 경로는 발견되지 않았다는 의미입니다.
실제 기업 도입 사례 중 가장 눈에 띄는 건 Stripe입니다. Stripe는 자사의 5,000만 줄 Ruby 코드베이스 마이그레이션 작업에 Fable 5를 투입했고, 원래 2개월이 걸릴 것으로 예상했던 작업을 하루 만에 끝냈습니다. 5,000만 줄은 오탈자가 아닙니다. 대형 금융 인프라 코드베이스를 단 하루에 마이그레이션했다는 사례가 업계에서 회자되는 이유가 여기 있습니다. 다른 분야의 초기 도입 기업들도 평가를 내놓고 있습니다. 금융 데이터 분석 플랫폼 Hex는 Hebbia 벤치마크 기준 최고점을 기록했다는 평가를 받았고, AI 에이전트 플랫폼 Genspark는 UI 디자인과 게임 코딩 품질에서 우위를 확인했다고 밝혔습니다. 자율 운영 체계를 구축 중인 Rakuten, 앱 생성 플랫폼 Base44도 도입 기업 명단에 이름을 올렸습니다.
“사용자 모르게”가 문제다 — Fable 5를 둘러싼 세 가지 논란
출시 직후 Anthropic 커뮤니티에서 가장 뜨겁게 오간 이야기는 성능 자랑이 아니었습니다. 오히려 “이게 괜찮은 방식인가”라는 물음이었습니다.
첫 번째이자 가장 큰 논란은 침묵적 성능 저하(silent degradation)입니다. Anthropic은 Fable 5 출시와 함께, frontier LLM 개발 관련 요청 — 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 등 — 에 대해 사용자에게 알리지 않고 의도적으로 응답 품질을 낮춘다는 사실을 공식 인정했습니다. 다른 모델로 넘기는 방식이 아닙니다. 내부적으로 응답 자체를 제한하기 때문에 사용자는 무언가 달라졌는지조차 알 수 없습니다.
개발자이자 AI 연구자인 Simon Willison은 자신의 블로그(simonwillison.net, 2026-06-10)에 이 정책이 범주적으로 잘못됐다고 비판했습니다. 회사 이익과 충돌할 수 있는 연구를 둔화시키기 위해 사용자 몰래 응답을 손상시키는 행위는 신뢰 관계를 근본적으로 훼손한다는 취지였습니다. 사용자가 숨겨진 제한이 있다는 사실 자체를 모를 수 있다는 점도 지적했습니다.
Anthropic 입장에서는 경쟁사가 자사 모델을 활용해 더 강력한 AI를 개발하는 시나리오를 막으려는 안전 조치라는 논리가 있습니다. 그러나 “어떤 요청이 제한되는지”를 사용자에게 투명하게 공개하지 않는 이상, 이 정책은 도구로서의 신뢰성과 직결된 문제로 남습니다. Anthropic이 처음으로 공식 인정한 침묵적 개입 사례라는 점에서 향후 업계 관행에 미치는 영향도 적지 않을 것입니다.
두 번째는 기업 데이터 보존 정책 변경입니다. 기존에 zero-retention, 즉 무보존 계약을 맺었던 기업 고객도 Fable 5부터는 예외 없이 30일 보존이 적용됩니다. Anthropic은 모델 학습에 사용하지 않으며 안전 목적으로만 한정한다고 밝혔습니다. 그러나 민감한 내부 문서나 고객 데이터를 다루는 기업들 사이에서는 계약 조건이 사전 동의 없이 바뀐 셈이라는 우려가 나오고 있습니다. TechCrunch를 비롯한 주요 매체들도 이 변경 사항을 별도로 짚었습니다.
세 번째는 비용입니다. API 기준 입력 $10, 출력 $50(per MTok)으로, Opus 4.8 대비 두 배 수준입니다. Hacker News에는 하루 $82.92를 지출했다는 실사용 보고가 올라왔고, Max 20x 플랜에서 분당 크레딧 한도의 약 2%가 소모된다는 경험담도 공유됐습니다. “무료 샘플로 의존성을 만든 뒤 유료로 전환하는 전략 아니냐”는 비판과, “추론 비용이 이 정도인 컴퓨팅 구조에서 고정 구독 모델만으로는 지속 불가능하다”는 반박이 동시에 올라오며 팽팽한 온도차를 보였습니다.
한국 독자라면 지금 해야 할 것
비판적 시각이 많다고 해서 Fable 5를 쓸 이유가 없는 건 아닙니다. 오히려 지금이 판단하기 가장 좋은 시점입니다.
무료 기간은 6월 22일에 끝나고, 23일부터는 사용 크레딧이 필요합니다. 적용 대상은 Pro와 Max는 물론 Team·Enterprise 구독자까지 포함됩니다. 이미 구독 중이라면 월 약 3만 원(≈$20)을 계속 낼 이유가 있는지 없는지를, 남은 기간 안에 추가 비용 없이 직접 확인할 수 있는 셈입니다.
무료 2주를 가장 알차게 쓰는 방법은 평소에 가장 불만이 많았던 작업을 그대로 들고 가는 것입니다. 개발자라면 기존 모델에서 반복적으로 막히던 까다로운 버그나 복잡한 리팩터링 과제를 Fable 5에 넣어보세요. 1M 컨텍스트 윈도우 덕분에 대규모 코드베이스를 잘라내지 않고 통째로 올릴 수 있다는 점도 직접 체감해볼 수 있습니다. 개발과 무관한 일반 사용자라면 긴 보고서나 계약서 요약, 여러 문서를 엮어 정리하는 작업을 평소 쓰던 모델과 완전히 동일한 프롬프트로 비교해보는 것이 판단에 가장 직접적으로 도움이 됩니다. 비교 기준이 같아야 모델 간 차이가 정확하게 보이기 때문입니다.
Anthropic이 최근 발표한 한도 2배 확대 흐름과 이번 출시가 어떻게 연결되는지 궁금하다면 Anthropic이 한 자리서 꺼낸 것 — 한도 2배와 Dreaming을 함께 보시면 맥락이 이어집니다. Opus 4.7이 나왔을 때도 비슷한 고민이 있었는데, 그때의 정리는 Opus 4.7 나왔다고 다 갈아탈 필요 없습니다에서 확인할 수 있습니다.
침묵적 제한 정책에 불안함을 느끼는 개발자라면 그 감각이 타당합니다. 그러나 일반 업무·글쓰기·정보 정리 용도라면 해당 제한이 실질적으로 영향을 미칠 일은 거의 없습니다. 6월 22일까지는 무료입니다. 한 번이라도 직접 돌려본 경험만큼 확실한 판단 근거는 없습니다.





