Claude Opus 4.8 출시, GPT-5.5 코딩 격차 10%p 벌렸습니다

Claude를 쓰는 개발자라면 한 번 확인해볼 만합니다. 가격은 그대로인데 성능이 확 뛰었습니다. Anthropic이 2026년 5월 28일 플래그십 모델 Claude Opus 4.8을 공식 출시했고, 소프트웨어 엔지니어링 벤치마크(SWE-Bench Pro)에서 에이전틱 코딩 1위를 탈환하며 GPT-5.5와 Gemini 3.1 Pro를 동시에 제쳤습니다. 게다가 표준 API 가격은 입력 $5, 출력 $25로 Opus 4.7과 동일합니다. 같은 비용으로 더 강력한 모델을 쓸 수 있게 됐다는 뜻입니다.

Opus 4.7 출시 41일 만 — 이례적 속도

Claude Opus 4.7이 나온 지 41일 만입니다. 반년을 기다려야 했던 과거와 비교하면 이례적으로 빠른 업그레이드입니다. Anthropic은 현재 에이전틱 AI, 즉 사람 대신 긴 작업을 스스로 처리하는 AI 분야에서 OpenAI·Google과 정면 경쟁 중입니다. Opus 4.8 출시는 그 경쟁에서 주도권을 빼앗아오려는 움직임으로 읽힙니다.

이번 업그레이드의 핵심 방향은 세 가지입니다. 첫째, 코딩 에이전트 성능 강화. 둘째, 복잡한 추론 능력 향상. 셋째, 모델이 스스로 문제를 솔직하게 인지하고 보고하는 정직성(Honesty) 개선입니다. Anthropic 공식 발표에 따르면 “Opus 4.8은 전임 모델보다 더 예리한 판단력, 진행 상황에 대한 더 솔직한 보고, 그리고 더 오래 독립적으로 작업하는 능력을 갖췄다”고 설명했습니다.

벤치마크 수치로 읽는 Opus 4.8 — 어디서 이기고 어디서 지는가

Anthropic이 Opus 4.8 발표와 함께 공개한 벤치마크 수치는 경쟁사 대비 명확한 강약점을 숫자로 보여줍니다. 에이전틱 코딩과 컴퓨터 사용 영역에서는 GPT-5.5·Gemini 3.1 Pro를 앞서지만, 터미널 코딩 분야에서는 아직 GPT-5.5에 뒤처진다는 점이 눈에 띕니다. 핵심 벤치마크를 먼저 비교해 보겠습니다.

벤치마크 Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
SWE-Bench Pro (에이전틱 코딩) 69.2% 64.3% 58.6% 54.2%
Terminal-Bench 2.1 (터미널 코딩) 74.6% 66.1% 78.2% 70.3%
OSWorld-Verified (컴퓨터 사용) 83.4% 82.8% 78.7% 76.2%
GDPval-AA (지식 작업 점수) 1890 1753 1769
HLE (추론, 도구 포함) 57.9%
Legal Agent Benchmark 업계 최초 10%

출처: Anthropic 공식 시스템 카드 + 벤치마크 집계 (2026-05-28). 하네스 조건 차이로 GPT-5.5의 터미널 코딩 실제 수치는 더 높을 수 있습니다(아래 설명).

에이전틱 코딩의 표준 척도로 자리 잡은 SWE-Bench Pro에서 Opus 4.8은 69.2%를 기록하며 GPT-5.5(58.6%)를 10.6%포인트 차이로 앞섰습니다. 직전 모델인 Opus 4.7(64.3%)과 비교해도 4.9%포인트 상승입니다. Gemini 3.1 Pro(54.2%)와의 격차는 무려 15%포인트에 달합니다. 실제 GitHub 저장소 이슈를 AI가 자율적으로 해결하는 방식으로 측정되는 이 지표에서 경쟁사를 모두 제치며 1위를 차지한 것은 의미 있는 성과입니다. GPT-5.5 출시 당시 코딩 벤치마크에서 Claude가 잠시 밀렸다는 평가가 있었는데, Opus 4.8은 그 간격을 단번에 뒤집었습니다.

컴퓨터 화면을 직접 보고 조작하는 능력(OSWorld-Verified)에서도 Opus 4.8은 83.4%로 GPT-5.5(78.7%)와 Gemini 3.1 Pro(76.2%)를 앞섭니다. 지식 작업 종합 점수인 GDPval-AA 역시 Opus 4.7의 1753점에서 1890점으로 크게 뛰었습니다. 도구를 포함한 조건에서 치른 추론 시험 Humanity’s Last Exam(HLE)에서는 57.9%를 기록했습니다(도구 미사용 조건에서는 49.8%).

단, 터미널 환경에서 코딩 명령을 처리하는 Terminal-Bench 2.1에서는 Opus 4.8이 74.6%로 GPT-5.5(78.2%)에 3.6%포인트 뒤처집니다. Opus 4.7(66.1%) 대비 8.5%포인트 올랐음에도 GPT-5.5를 넘지 못한 영역입니다. 이 수치는 Terminus-2 퍼블릭 하네스 동일 조건 비교이며, GPT-5.5가 자사 네이티브 Codex CLI 하네스를 사용할 경우 83.4%까지 나온다는 점도 함께 고려해야 합니다. 어느 한 모델이 모든 영역을 압도하는 시대는 아직 아닙니다.

법률 AI 분야에서도 의미 있는 성과가 나왔습니다. Opus 4.8은 Legal Agent Benchmark에서 10% 통과선을 처음으로 넘은 모델이 됐습니다. 단순 법률 질의응답을 넘어 복잡한 법률 에이전트 작업을 처리하는 능력을 측정하는 지표에서 업계 최초 10% 달성이라는 기록을 세운 것입니다.

Claude Opus 4.8 출시 소식을 확인하는 개발자, AI generated
Claude Opus 4.8, 에이전틱 코딩 벤치마크 1위 탈환 — 개발자에게 지금 가장 실용적인 선택지가 됐습니다

세 가지 신기능 — Dynamic Workflows, Effort Control, Fast Mode

수치 비교 너머로, Opus 4.8이 이번에 선보인 세 가지 기능은 AI 모델의 쓰임새를 실질적으로 바꿀 잠재력이 있습니다.

먼저 Dynamic Workflows는 이번 발표에서 가장 주목받는 신기능입니다. 수백 개의 병렬 서브에이전트를 동시에 관리하며 복잡한 대규모 작업을 처리할 수 있는 능력으로, 현재는 연구 미리보기(Research Preview) 상태로 제공됩니다. Anthropic은 “수십만 줄에 달하는 코드 마이그레이션을 킥오프에서 머지까지 기존 테스트 스위트 내에서 자율 처리”한다는 예시를 제시했습니다. 단순한 1회성 질문·답변을 넘어, 며칠이 걸리는 복잡한 개발 프로젝트를 AI가 자체적으로 팀을 구성해 병렬로 처리하는 구조입니다.

작업의 결을 직접 조절하고 싶은 사용자를 위한 기능도 생겼습니다. Effort Control은 claude.ai와 Anthropic의 협업 도구 Cowork에서 사용할 수 있는 기능으로, 응답의 품질과 속도 사이에서 균형점을 직접 조절할 수 있게 해줍니다. 정밀도가 중요한 업무에는 최고 품질 모드를, 빠른 초안 작성이 필요할 때는 속도 중심 모드를 선택하는 방식입니다. 같은 모델 위에서 상황에 따라 다른 성능 프로필을 꺼내 쓰는 셈입니다.

그리고 가장 직관적인 개선은 Fast Mode입니다. Opus 4.7 Fast Mode 대비 처리 속도가 2.5배 빨라진 반면, 비용은 3배 저렴해졌습니다. API 가격 기준으로 입력 토큰 $10/백만 토큰, 출력 토큰 $50/백만 토큰으로 책정됐습니다. 빠른 응답이 필요한 챗봇이나 반복 작업 자동화 파이프라인에서 체감 차이가 클 것으로 보입니다.

“정직성” 개선 — 조용한 실패를 줄이다

Anthropic 발표 기준으로, Opus 4.8은 자기가 작성한 코드에서 결함을 감지하지 못하는 비율이 Opus 4.7 대비 약 4분의 1 수준으로 줄었습니다. 스스로 낸 오류를 스스로 발견하는 능력이 크게 높아졌다는 의미입니다. 코딩 에이전트를 실무에 투입하는 팀이라면 이 수치가 훨씬 피부에 와 닿을 것입니다. 실제로 기업 고객인 Bridgewater Associates는 TechCrunch 인터뷰에서 “이번 업그레이드의 가장 큰 차이는 입력과 출력의 문제를 스스로 먼저 짚어내는 경향이 생긴 것”이라고 밝혔습니다. 다만 이 수치 자체는 Anthropic 내부 측정값으로 독립된 외부 감사는 아직 없다는 점은 감안할 필요가 있습니다.

Opus 4.7 분석 글에서도 다뤘듯, Anthropic은 꾸준히 정직성 강화에 집중해왔습니다. 모델이 틀렸을 때 틀렸다고 말하고, 모르면 모른다고 말하고, 작업이 막히면 먼저 알리는 방향입니다. Opus 4.8은 그 흐름의 연장선에서 에이전트가 장시간 독립 작업할 때 발생하는 “조용한 실패”를 줄이는 데 집중했습니다.

Claude Code·앱·IDE에서 Opus 4.8 쓰는 법

Opus 4.8은 출시 즉시 claude.ai, Claude Code, Anthropic API, GitHub Copilot에서 사용할 수 있습니다. 구독 중이신 분들은 별도 설정 없이 대화창이나 IDE 확장에서 모델 선택만 바꾸면 됩니다. Claude.ai 구독 사용자(Pro·Max) 역시 Opus 4.8을 별도 비용 없이 사용할 수 있습니다.

Claude Code에서는 /fast 모드가 눈에 띄는 추가 기능입니다. /fast 명령을 입력하면 Claude Code가 Fast Mode로 전환되어, 표준 모드보다 2.5배 빠른 응답을 받을 수 있습니다. 주의할 점은 /fast가 “작은 모델로 다운그레이드”하는 기능이 아니라는 점입니다. Opus 4.8 그대로를 더 빠른 속도 프로필로 돌리는 것이며, Fast Mode의 API 요금은 입력 $10, 출력 $50(백만 토큰 기준)으로 이전 Opus 4.7 Fast Mode보다 3배 저렴해졌습니다.

GitHub Copilot 사용자에게도 반가운 소식입니다. GitHub 공식 Changelog에 따르면 Opus 4.8은 출시일인 5월 28일부터 Copilot에서 GA(정식 지원) 상태로 제공됩니다. VS Code, JetBrains IDE, Neovim 등에서 이미 Opus 4.8을 선택할 수 있습니다.

개발자에게 주는 의미와 냉정한 한계

Anthropic이 41일 만에 플래그십 모델을 교체하면서도 표준 API 요금을 그대로 유지한 것은 경쟁 구도에서 의미 있는 신호입니다. 성능이 올라가면 보통 가격도 따라 오르는 게 업계 관행이었는데, Anthropic은 이번에 그 공식을 깼습니다. 이미 Opus 4.7 기반으로 프로덕션 파이프라인을 구성해 둔 기업 개발자들은 마이그레이션 비용 없이 업그레이드 효과를 누릴 수 있습니다. 모델이 오래 자율 작동해야 하는 장기 실행 에이전트 작업일수록, SWE-Bench Pro에서 벌어진 점수 차이가 실제 작업 성공률 차이로 이어질 여지가 큽니다.

다만 냉정하게 볼 필요도 있습니다. 앞서 살펴본 대로 터미널 코딩 벤치마크에서는 Opus 4.8이 GPT-5.5에 아직 뒤처집니다. Bash 스크립트·쉘 자동화 위주의 터미널 작업이 핵심인 환경이라면 GPT-5.5가 여전히 유력한 선택지입니다. 정직성 개선 수치 역시 Anthropic 내부 측정값인 만큼, 실제 프로덕션에서 체감 효과를 직접 검증해 보는 자세가 필요합니다.

Mythos급 모델 예고

Anthropic은 이번 Opus 4.8 출시 발표와 함께 더 강력한 “Mythos급” 모델의 일반 공개도 예고했습니다. “추가 사이버보안 조치를 완료하는 대로 수 주 내에 Mythos급 모델을 모든 고객에게 제공할 예정”이라는 설명입니다. Anthropic의 최근 행보를 보면 플래그십 모델 위에 별도 최상위 모델을 두는 구조가 점차 굳어지고 있음을 알 수 있습니다. 사이버보안 조치 완료를 조건으로 단 점은, 단순 성능 향상이 아닌 고위험 용도에서의 안전성까지 검토하겠다는 의미로 읽힙니다.

한국 개발자에게 남은 실질 과제

이번 업그레이드에서 한국 독자에게 가장 직결되는 포인트는 하나입니다. Opus 4.8이 Claude Code와 GitHub Copilot에 동시 적용된 만큼, 국내 개발자·스타트업 모두 현재 쓰는 도구에서 즉시 업그레이드 효과를 확인해볼 수 있습니다. 별도 도구 변경 없이 모델 선택 하나로 에이전틱 코딩 벤치마크 1위 모델을 쓸 수 있게 된 것입니다.

한 가지 더 염두에 둘 것은 Anthropic이 예고한 다음 행보입니다. 한 달에 두 번 플래그십이 바뀌는 속도전 속에서, 특정 모델에 과하게 의존하는 구조보다 모델을 교환 가능한 부품처럼 설계하는 아키텍처가 장기적으로 유리합니다. 지금 시점에서 Opus 4.8을 현재 프로젝트에 붙여 직접 돌려보면, 다음 모델이 나왔을 때 무엇을 비교해야 할지도 함께 또렷해집니다.

가격은 그대로, 성능은 올랐고, 쓸 수 있는 채널도 넓어졌습니다. 터미널 코딩 한 영역에서 GPT-5.5에 뒤처지는 점은 솔직히 인정해야 할 한계입니다. 그 한계까지 감안하고도, 에이전틱 코딩 전반을 놓고 보면 Opus 4.8은 지금 당장 손에 쥘 수 있는 가장 실용적인 카드입니다. 판단은 직접 써본 뒤에 내리면 됩니다.

댓글 남기기