AI를 한 모델로 끝내던 시대는 끝났습니다
지난 2026년 4월 16일 Anthropic이 Claude Opus 4.7을 공식 공개했습니다. 사흘 사이 한국 개발자 슬랙 채널과 디스코드, X(트위터) 타임라인에는 같은 질문이 넘쳐납니다. 지금 쓰는 GPT-5.4를 Opus 4.7로 갈아타야 하느냐는 질문입니다.
결론을 먼저 말씀드리겠습니다. 갈아탈 필요는 없습니다. 정확히 말하면, “어떤 작업을 주로 하느냐”에 따라 답이 달라집니다. 2026년 AI 시장은 한 회사의 한 모델이 모든 영역에서 1위를 독점하던 시대를 지나왔습니다. Claude와 GPT, Gemini, Perplexity 네 진영이 각자의 영토를 명확히 나눠 가진 상태이고, Opus 4.7 출시는 그 영토 지도를 한 번 더 또렷하게 만든 사건입니다.
이 글에서는 Opus 4.7이 실제로 무엇을 개선했고 어떤 함정을 남겼는지를 수치로 풀어드립니다. 그다음 4강이 어떤 영역을 차지했는지를 정리하고, 한국 사용자가 어떤 워크플로우에서 어떤 모델을 골라야 하는지 실전 가이드를 함께 제시합니다.

Opus 4.7, 코딩과 추론에서 명확히 도약했습니다
Anthropic은 한국시간 2026년 4월 16일 Claude Opus 4.7을 공식 발표했습니다. 발표 직후 AWS Bedrock과 Google Cloud Vertex AI, Microsoft Foundry, GitHub Copilot 통합까지 동시에 지원이 시작됐습니다. 기존 Opus 4.6 사용자는 별도 마이그레이션 없이 모델 ID만 바꾸면 되는 구조라, 도입 진입장벽 자체는 낮은 편입니다.
가장 눈에 띄는 개선은 소프트웨어 엔지니어링 벤치마크입니다. SWE-bench Verified 점수는 4.6의 80.8%에서 4.7의 87.6%로 6.8%포인트 올랐고, 더 어려운 멀티스텝 과제로 구성된 SWE-bench Pro 트랙은 53.4%에서 64.3%로 무려 10.9%포인트 상승했습니다. SWE-bench는 GitHub의 실제 이슈와 풀 리퀘스트를 기반으로 모델이 버그 수정과 기능 추가, 리팩토링을 얼마나 독립적으로 해결하는지를 평가합니다. 두 자리수 상승폭은 단순 코드 생성 능력이 아니라, 복잡한 프로젝트 안에서의 실질적 개발 능력이 한 단계 올라갔다는 신호입니다.
추론 능력도 강화됐습니다. 박사급 과학 다지선다 문제를 평가하는 GPQA Diamond에서 94.2%를 기록했는데, 이는 물리·화학·생물 영역에서 거의 인간 박사 수준에 도달한 점수입니다. 비전 능력도 함께 끌어올렸습니다. 이미지 입력 최대 해상도가 기존 대비 약 3배 늘어 2,576픽셀까지 처리할 수 있고, 작은 텍스트가 빼곡한 문서나 복잡한 차트, 상세한 UI 스크린샷 분석에서 정확도가 눈에 띄게 올라갔습니다.
사용성 쪽에도 변화가 있습니다. 추론 노력 레벨에 xhigh 단계가 새로 추가돼 기존 high와 max 사이의 정밀한 제어가 가능해졌고, Claude Code에는 ultrareview 슬래시 커맨드가 연구 프리뷰로 도입돼 깊이 있는 코드 리뷰 세션을 단독으로 호출할 수 있습니다. 한국어 처리 일관성도 개선됐다는 게 Anthropic 공식 평가인데, 한국 사용자가 체감하는 자연스러움은 4.6 대비 분명히 한 단계 위라는 게 초기 사용기들의 공통 의견입니다.
그런데 왜 “갈아타지 말라”는 말이 나오나
여기까지만 보면 즉시 업그레이드해야 할 것 같지만, Opus 4.7에는 세 가지 함정이 숨어 있습니다. 출시 48시간 내 영어권 개발자 커뮤니티의 평가가 “코딩 에이전트 전용 업그레이드”로 빠르게 수렴한 데에는 분명한 이유가 있습니다.
첫 번째는 가격 함정입니다. API 단가는 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 동결됐습니다. 숫자만 보면 비용 변동이 없어 보입니다. 하지만 Anthropic은 같은 발표에서 토크나이저, 그러니까 텍스트를 토큰으로 쪼개는 방식을 변경했다고 공지했습니다. 공식 측정에 따르면 동일한 텍스트가 1.0배에서 1.35배까지 더 많은 토큰으로 분해됩니다. 독립 분석 사이트 Apiyi.com이 측정한 코드와 기술 문서 같은 비영어 구조화 콘텐츠에서는 최대 1.47배까지 증가한 사례가 보고됐습니다. 단가 동결이라는 표현 뒤에 실질 청구액이 35퍼센트에서 47퍼센트까지 올라가는 함정이 숨어 있는 셈입니다.
두 번째는 더 심각합니다. 독립 벤치마크 MRCR(Multi-document Retrieval & Context Reasoning, 여러 문서에서 정확한 위치를 찾아 맥락을 추론하는 능력)에서 Opus 4.7은 78.3%에서 32.2%로 회귀했습니다. 약 절반 가까이 떨어진 수치입니다. 100페이지 분량의 사내 문서에서 “8페이지에 나온 보안 설정”을 찾아달라는 식의 RAG 작업에서 4.7은 4.6보다 빈번히 핵심 정보를 놓칩니다. 구버전이 더 나은 영역이 생겼다는 보기 드문 사례인데, Anthropic이 코딩과 추론 영역에 자원을 몰아주면서 검색과 메모리 능력을 어느 정도 절충했다는 신호로 읽힙니다. 사내 RAG 시스템이나 법률·의학 장문서 분석을 운영 중이라면, 무작정 업그레이드하지 말고 자체 데이터셋으로 회귀 테스트를 먼저 돌려야 합니다.
세 번째는 Claude Code의 기본값 변경입니다. Opus 4.7과 함께 배포된 Claude Code는 effort 기본값을 xhigh로 자동 설정합니다. 매 요청마다 thinking 토큰을 최대치로 쓴다는 뜻입니다. Hacker News에서는 출시 이틀 만에 Claude Max 구독자도 일일 할당량 부족 알림을 받기 시작했다는 보고가 올라왔습니다. 단순한 코드 수정이나 스타일 정리에 굳이 필요 없는 사고 비용입니다.
이 세 가지가 합쳐져서 출시 직후 호평이 빠르게 식었습니다. 일반 글쓰기와 검색, 장문서 처리는 4.6이나 다른 모델이 더 낫다는 의견이 다수 의견으로 굳어지고 있습니다.
2026년 4월, AI 4강은 이렇게 갈렸습니다
Opus 4.7 출시는 단순한 모델 버전 업이 아니라 시장 분화 흐름에 한 번 더 못을 박은 사건입니다. “GPT가 무조건 최강”이라는 단순 구도는 더 이상 유효하지 않습니다. 2026년 4월 현재, Claude와 GPT, Gemini, Perplexity 네 진영은 각자의 1위 자리를 명확하게 잡았습니다. 한눈에 정리한 매트릭스는 다음과 같습니다.
| 영역 | 1위 모델 | 핵심 근거 |
|---|---|---|
| 코딩·소프트웨어 개발 | Claude Opus 4.7 | SWE-bench Verified 87.6% (Anthropic 공식) |
| 과학·수학 추론 | Claude Opus 4.7 | GPQA Diamond 94.2% |
| 글쓰기 품질·인간 선호 | Claude Opus 4.7 | 인간 맹검 평가 47% 선호 (독립 분석) |
| 컴퓨터 자동화·UI 조작 | GPT-5.4 | OSWorld 75.0% (인간 72.4% 초과) |
| 실무 워크플로우 | GPT-5.4 | GDPval 83.0% (회계·영업·마케팅·HR 등 44개 직종 실무 평가) |
| 자연스러운 음성 대화 | GPT-5.4 | Advanced Voice Mode |
| 영상·멀티모달 이해 | Gemini 3.1 Pro | Video-MME 78.2% |
| 장문 컨텍스트 처리 | Gemini 3.1 Pro | 1M 토큰 컨텍스트 |
| 웹 검색·출처 추적 | Perplexity Pro | 인용 명확성·팩트체크 우위 |

Claude Opus 4.7은 순수 지능 영역에서 4강을 주도합니다. SWE-bench Verified 87.6%는 GPT-5.4의 독립 평가 점수와 격차가 분명한데, 같은 SWE-bench Pro 트랙에서 GPT-5.4는 57.7%, Gemini 3.1 Pro는 54.2%에 그칩니다(지난 코드 에이전트 비교 기사 참조). GPQA Diamond 94.2%는 박사급 과학 문제에서 거의 인간 수준이고, 독립 평가 기관 AI Magicx의 인간 맹검 글쓰기 선호도 평가에서는 Claude가 47%를 받아 GPT-5.4의 29%, Gemini 3.1 Pro의 24%와 큰 격차를 벌렸습니다. 이 격차는 단순 정확도가 아니라 표현의 자연스러움과 맥락 이해에서 나옵니다. 복잡한 논리 문제를 풀거나, 대규모 소프트웨어를 구현하거나, 학술·기술 문서를 작성해야 하는 작업이라면 Claude가 가장 신뢰할 만한 선택지입니다.
GPT-5.4는 일반인이 흔히 떠올리는 “검색이 강한 챗봇” 이미지와 달리, 실제 차별화 포인트는 컴퓨터 환경과의 상호작용에 있습니다. OSWorld 벤치마크는 데스크톱 스크린샷을 보고 GUI를 직접 조작하는 능력을 평가하는데, GPT-5.4는 75.0%로 인간 평균 72.4%를 처음으로 넘어선 모델입니다. 회계·영업·마케팅·HR을 포함한 44개 직종의 실무 능력을 평가하는 GDPval에서도 83.0%로 4강 중 유일하게 80%대를 기록했고, Advanced Voice Mode는 자연스러운 지연시간과 인터럽트 처리로 실시간 음성 비서 영역에서 가장 성숙한 솔루션입니다. 참고로 OpenAI가 자사 벤치마크 BrowseComp에서 89.3%를 발표하긴 했지만, 자체 평가라는 한계 때문에 웹 검색 영역의 진짜 강자는 따로 있습니다.
Gemini 3.1 Pro는 텍스트 추론에서는 2~3위지만, 영상과 장문 처리에서는 명확한 1위입니다. Video-MME 78.2%는 영상 프레임 이해와 장면 변화 추적, 자막 동기화를 모두 평가한 점수인데, Claude나 GPT는 아직 영상 영역에서 비교 가능한 공개 벤치마크 자체가 없습니다. 1M 토큰 컨텍스트 윈도우는 책 한 권이나 학위논문, 코드베이스 전체를 한 프롬프트에 담을 수 있다는 의미입니다. 여기에 Google Workspace 통합과 Google 검색 API 연동까지 더해지면 일상 사용자에게는 가장 자연스러운 멀티모달 백과사전이 됩니다.
마지막으로 Perplexity Pro입니다. Claude와 GPT, Gemini도 모두 웹 검색 기능을 제공하지만, 사용자가 출처를 확인하려면 여러 단계를 거쳐야 합니다. Perplexity는 답변의 각 문장 옆에 인용 출처를 즉시 표시하고 원본으로 원클릭 이동을 지원합니다. Deep Research와 Pro Search 기능은 복합 질문을 자동 분해해 다단계 검색을 수행합니다. 학술 논문 인용이나 저널리즘 팩트체크, 의학 정보 조회처럼 “틀리면 안 되는” 작업에서 신뢰도가 가장 높은 도구입니다.
그래서 한국에서는 어떻게 써야 하나요
여기까지 읽으셨다면 이미 답이 보이실 겁니다. Opus 4.7은 모든 작업의 정답이 아니라, 4강 가운데 사고와 코딩 영역의 중심 기둥입니다. 부족한 부분은 다른 세 진영으로 채우는 구조가 2026년의 표준 워크플로우라고 보시면 됩니다.
업무 문서나 보고서, 제안서, 기획안 같은 글쓰기가 주력인 분이라면 Claude Opus 4.7이 정답입니다. 인간 선호 47%는 단순 정확도가 아니라 글의 구조와 자연스러움, 한국어 뉘앙스를 모두 포함한 평가입니다. 후가공이 가장 적게 드는 모델이라는 뜻입니다. 다만 최신 정보가 필요한 부분은 Perplexity Pro로 따로 검색해 가져온 뒤 Claude에 붙여 정리하는 두 단계 워크플로우를 권합니다.
코딩이 핵심이라면 마찬가지로 Opus 4.7과 Claude Code 조합이 현존 최강입니다. SWE-bench Verified 87.6%는 실제 소프트웨어 엔지니어링 평가이므로 단순 코드 생성과는 차원이 다른 결과를 보여줍니다. 장기 리팩토링이나 아키텍처 설계, 프로덕션 코드 작성에서 격차가 명확합니다. 다만 사내 코드베이스나 기술 문서 전체를 통째로 입력하는 RAG 작업이라면 위에서 설명한 MRCR 회귀 때문에 4.6을 한동안 유지하는 편이 안전합니다.
엑셀 자동화나 데스크톱 RPA, 음성 비서 기반 업무 자동화가 필요한 한국 중소기업이라면 GPT-5.4가 사실상 유일한 선택지입니다. OSWorld 75%와 GDPval 83%는 실제 데스크톱 조작과 실무 워크플로우 평가이고, Claude는 아직 이 영역에서 측정 가능한 점수 자체가 없습니다.

영상 분석이나 긴 문서를 다루는 출판사, 영상 제작팀, 학술 연구자라면 Gemini 3.1 Pro가 적합합니다. Video-MME 78.2%와 1M 토큰 컨텍스트의 조합은 한국 환경에서도 실질적 가치가 큽니다. 책 한 권이나 학위논문, 전체 코드베이스를 한 프롬프트로 분석할 수 있고, 이미 Google Workspace를 쓰고 계시다면 통합 비용도 거의 들지 않습니다.
사실 확인이나 취재, 학술 인용이 잦은 분이라면 Perplexity Pro가 거의 유일한 대안입니다. 출처 추적과 Deep Research, 학술지 인용 자동화 기능은 다른 모델의 키워드 매칭식 검색으로는 따라가기 어렵습니다. 한국의 기자와 연구원, 팩트체커라면 최소 Pro 구독을 권장 드립니다(지난 글: Claude AI가 Firefox 취약점 22개를 2주 만에 찾았다 같은 보안 추적 작업에서도 출처 검증이 결과의 신뢰도를 좌우했습니다).
Opus 4.7로 갈아탈 때 꼭 확인할 것
여기까지 읽고도 Opus 4.7로 업그레이드하기로 마음을 정하셨다면, 위에서 설명한 세 가지 함정에 대한 대응책을 미리 준비해두시는 편이 좋습니다.
가격 함정은 프롬프트 캐싱과 배치 처리의 조합으로 상쇄할 수 있습니다. Anthropic 공식 데이터로 프롬프트 캐싱은 최대 90%, 배치 처리는 추가 50%까지 비용을 절감할 수 있습니다. 두 기법을 함께 쓰면 토크나이저 변경으로 늘어난 35~47%의 실질 비용 증가분을 충분히 상쇄하고도 남습니다. 한국 스타트업이라면 도입 첫 주에 두 기법 적용 여부부터 점검하시기를 권장 드립니다.
장문서 RAG 회귀는 자체 데이터셋으로 회귀 테스트를 먼저 돌려보고 판단해야 합니다. 100페이지 이상의 사내 문서나 법률·의학 콘텐츠를 다루는 시스템이라면, 4.7과 4.6을 같은 입력으로 비교해서 어느 쪽이 더 정확한 결과를 내는지 직접 측정하시는 게 안전합니다. 결과가 의심스러우면 4.7은 새 작업에만 도입하고, 기존 RAG 시스템은 한동안 4.6 그대로 운영하시는 병행 구조를 권합니다.
Claude Code의 effort 기본값 문제는 가장 간단합니다. 단순한 코드 수정이나 스타일 정리, 짧은 테스트 작성에는 effort를 medium으로 수동 변경하시고, 깊은 사고가 필요한 아키텍처 결정이나 성능 최적화 작업에서만 xhigh를 쓰시면 됩니다. 한 줄짜리 설정 변경이지만, 이걸 안 하면 Max 구독자도 할당량 알림을 받게 됩니다.
특히 한국의 인디 개발팀과 스타트업에 권장 드리는 첫 단계는 현재 워크플로우의 작업 유형별 비중 측정입니다. 코딩이 60%, 검색이 20%, 장문서 분석이 20%처럼 분해해보면 어떤 모델이 어디에 들어가야 할지 자연스럽게 보입니다. 이 비중이 명확해진 다음에 구독과 API 예산을 재배치하시면 됩니다(지난 릴리스AI 사용기에서도 모델 단일 의존의 비효율을 다룬 적이 있습니다).
올인원 시대는 끝났습니다
2025년까지 AI 모델 시장의 패러다임은 명확했습니다. 한 회사의 한 모델이 모든 작업을 최고 수준으로 처리한다면, 그것이 곧 최고의 선택이라는 단순한 계산이었습니다. Claude 3.5 Sonnet 시대가 그런 모습이었습니다.
2026년 4월 현재는 완전히 달라졌습니다. Claude와 GPT, Gemini, Perplexity 4강이 영토를 나눠 가졌고, 사고와 글쓰기는 Claude, 데스크톱 자동화는 GPT, 장문서와 멀티모달은 Gemini, 검색과 인용은 Perplexity라는 명확한 경계가 생겼습니다. Opus 4.7 출시는 Claude가 사고와 코딩 영역을 한층 더 굳혔다는 신호일 뿐, 만능 업그레이드가 아닙니다.
한국 사용자에게 권장 드리는 실전 전략은 두 가지로 정리할 수 있습니다. 첫째는 3~4개 플랫폼 구독을 작업 유형별로 병행하는 방식이고, 둘째는 회사 단위로 IT팀이 작업을 라우팅하는 표준을 정해두는 방식입니다. IT팀이 프롬프트 표준화와 비용 관리 체계를 만들어두면, 개별 팀원은 각자의 작업에만 집중할 수 있습니다. 어느 쪽이든 핵심은 “한 모델로 끝내려 하지 않는다”입니다.
마지막으로 한 가지 질문을 남기고 싶습니다. 당신의 워크플로우에서 가장 큰 비중을 차지하는 작업은 무엇입니까. 그 답이 곧 당신이 써야 할 모델입니다.
—