OpenAI GPT-5.5 출시 — 코딩 82.7%·가격 2배 정리

OpenAI가 4월 23일(미국 시각), 최신 대규모 언어모델 GPT-5.5를 공식 발표했습니다. GPT-5.4 출시 이후 약 두 달 만에 도착한 차기작입니다. 가격은 2배로 올랐고, 코딩 성능은 한 단계 더 뛰었으며, 한국 사용자 입장에서는 “지금 갈아탈지, 더 기다릴지”를 다시 한 번 결정해야 할 시점이 찾아왔습니다. 이번 출시는 단순한 모델 업그레이드를 넘어, OpenAI가 “슈퍼앱”이라는 큰 그림 안에서 어떤 카드를 쥐고 있는지를 함께 드러낸 자리이기도 합니다.

한국 여성 개발자가 듀얼 모니터에서 코드와 AI 코딩 에이전트를 다루는 모습, AI generated
한국 개발자가 GPT-5.5의 에이전트 코딩 기능을 사용하는 모습입니다.

OpenAI가 내놓은 “다음 단계”

OpenAI는 한국 시각 4월 24일 오전부터 ChatGPT Plus·Pro·Business·Enterprise 사용자들에게 GPT-5.5를 즉시 배포했습니다. API를 통한 일반 개발자 접근도 같은 날부터 시작되었습니다.

공식 발표에서 OpenAI는 GPT-5.5를 “현재까지 가장 똑똑하고 직관적으로 사용할 수 있는 모델”이라고 표현했습니다. 공동 설립자이자 사장인 그렉 브록먼은 “미래에 우리가 기대하는 컴퓨팅으로 향한 실질적인 진전”이라고 강조했고, 공식 성명에서는 “더 빠르고 더 날카로운 사고를 더 적은 토큰으로 구현한다”는 토큰 효율성 개선을 핵심으로 내세웠습니다.

모델은 두 가지 버전으로 제공됩니다. 표준 GPT-5.5와 프리미엄급 GPT-5.5 Pro입니다. 컨텍스트 윈도우(모델이 한 번에 처리할 수 있는 정보량)는 1백만 토큰 수준으로, 한국어 기준 약 400~500페이지 분량을 한 번에 다룰 수 있습니다. 회의록 수십 건, 단행본 4~5권 분량을 한 프롬프트에 통째로 넣고 그 안에서 답을 찾게 할 수 있다는 뜻입니다.

ChatGPT 유료 구독자 입장에서는 별도 설정 없이 자동으로 GPT-5.5에 접근할 수 있도록 배포되었습니다. Plus(월 20달러)부터 Pro(월 200달러)까지 전 계층에 즉시 적용되었고, 기업용 Business와 Enterprise 고객도 같은 방식입니다.

벤치마크: 코딩에 강하고, 수학은 여전히 약점입니다

OpenAI가 공개한 벤치마크 성과는 간단명료합니다. 수학·코딩·장문맥·전문 업무 네 분야에서 각각 어느 수준인지를 보여 줍니다.

벤치마크 측정 대상 GPT-5.5 점수
Terminal-Bench 2.0 에이전트 코딩 워크플로우 82.7%
GDPval 44개 직종 전문직 업무 84.9%
MRCR v2 512K~1M 토큰 장문맥 검색·요약 74.0%
FrontierMath Tier 4 박사급 수학 난제 표준 35.4% / Pro 39.6%

먼저 고급 수학입니다. FrontierMath Tier 4 벤치마크에서 표준 GPT-5.5는 35.4%를 기록했습니다. 한국 대학원 수준의 난제라고 보면, 공학·물리·선형대수 문제들을 풀 능력은 있지만 완벽하지는 않다는 뜻입니다. Pro 버전(가격이 6배 비쌉니다)은 39.6%로 소폭 상향됩니다. 4%포인트 차이가 일상 업무에서 체감될지, 아니면 박사 수준 연구실에서나 의미가 있을지는 사용자 환경마다 다릅니다.

코딩 업무는 한층 강합니다. Terminal-Bench 2.0 에이전트 코딩 벤치마크에서 82.7%를 달성했습니다. 이는 무엇을 의미할까요? 복잡한 소프트웨어 문제를 네 번 시도하면 세 번 정도는 자동으로 해결한다는 뜻입니다. 디버깅부터 테스트까지 사람 손을 거의 안 대도 된다는 점에서, 실무 개발자들이 가장 먼저 들여다보는 수치이기도 합니다.

장문맥 처리 능력도 점검 항목에 들어갔습니다. MRCR v2 벤치마크(512K~1M 토큰 범위에서의 검색·요약)에서 74.0%를 기록했습니다. 1M 토큰은 한국어 기준 단행본 4~5권에 해당하는 분량입니다. 이 정도 자료를 한 번에 입력하고 그 안에서 특정 정보를 정확히 꺼내는 작업이 4번 중 3번은 성공한다는 뜻입니다. 다만 25%에 가까운 실패 가능성이 남아 있다는 사실도 함께 기억해야 합니다.

마지막으로 전문 업무입니다. GDPval 벤치마크는 회계사·변호사·의사·컨설턴트 등 44개 직종의 실제 업무 시나리오를 평가합니다. GPT-5.5는 이 항목에서 84.9%를 달성했습니다. 변호사가 “이 계약서 조항 검토해 주세요”라고 했을 때, 84% 확률로 실무 수준 답변이 돌아온다는 의미입니다.

전체 그림을 정리하면 GPT-5.5는 “대부분의 일상 업무는 거뜬하지만, 창의성이 필요하거나 고도의 수학을 요구하는 작업은 여전히 사람의 손을 필요로 한다”는 결론에 도달합니다.

가격은 2배, 토큰 효율성으로 완충

API 가격책정에서 OpenAI는 공격적인 노선을 택했습니다.

항목 GPT-5.4 GPT-5.5 인상폭
표준 입력 (1M 토큰) $2.50 $5 2배
표준 출력 (1M 토큰) $15 $30 2배
Pro 입력 (1M 토큰) $30
Pro 출력 (1M 토큰) $180

가격이 두 배로 뛰었지만, OpenAI는 “토큰 효율성이 개선됐다”고 강조하고 있습니다. 같은 작업을 처리하는 데 필요한 토큰 수가 줄었다는 뜻입니다. 예를 들어 고객 이메일 300개를 분류하던 일을 예전에 50만 토큰으로 했다면, 이제는 더 적은 토큰으로 끝낼 수 있다는 식입니다. 결과적으로 가격 인상폭보다 실제 비용 상승폭이 작아질 수 있다는 게 OpenAI의 입장입니다.

ChatGPT Pro 구독자는 어떻게 될까요? Pro 구독에서는 GPT-5.5 Pro 모델까지 사용할 수 있습니다. API 가격은 표준 모델보다 훨씬 높습니다. 입력 1M 토큰당 30달러, 출력 1M 토큰당 180달러입니다. 토큰을 많이 쓰는 헤비 유저일수록 새로운 단가가 청구액에 미치는 영향이 커지므로, Pro 모델을 도입하기 전에 자기 워크로드 기준으로 한 달 단위 비용 시뮬레이션을 해 보는 것이 안전합니다.

ChatGPT 구독료는 기존과 동일합니다. Plus는 월 20달러(한국 환산 약 2만 6천 원), Pro는 월 200달러(약 26만 원) 수준입니다. 별도 추가 결제 없이도 표준 GPT-5.5를 즉시 사용할 수 있다는 점은 일반 사용자 입장에서 분명한 장점입니다. 다만 API로 직접 사용하는 스타트업이나 서비스 기업은 위 가격표에 월 사용량을 곱해 계산하면 됩니다. 토큰 효율성 개선이 있다 해도, 비용 최적화가 이제 선택이 아닌 필수가 되었다는 의미입니다.

여전한 약점: 할루시네이션

성과에 찬물을 끼얹는 것이 하나 있습니다. 할루시네이션 문제입니다. 정보가 없는 상황에서 그럴듯한 거짓을 지어내는 현상인데, GPT-5.5도 이 문제가 지속된다는 평가가 나오고 있습니다.

구체적인 수치는 공식 벤치마크가 별도 공개되지 않아 정확히 알 수 없습니다. 다만 기술 매체들은 “GPT-5.5가 성능을 크게 올렸지만, 여전히 환각을 만들어 낸다”고 평가하고 있습니다. 다시 말해 코딩이나 분석처럼 검증 가능한 영역에서는 강해졌지만, 사실 확인이 어려운 장문 요약이나 역사 설명에서는 여전히 조심해야 한다는 뜻입니다.

이게 실무에서는 무엇을 의미할까요? 변호사가 “판례 3개 찾아 주세요”라고 했을 때, GPT-5.5 Pro도 실제로 존재하지 않는 판례를 그럴듯하게 만들어 낼 가능성이 남아 있다는 것입니다. 따라서 “답은 GPT에서 받되, 최종 검증은 항상 사람이 해야 한다”는 원칙은 GPT-5.5 시대에도 그대로 유효합니다.

컨텍스트 윈도우가 1M 토큰으로 커진 것은 이 문제와 직접 관련이 있습니다. 더 많은 자료를 한 번에 입력할 수 있으므로, 이론상 할루시네이션을 줄일 수 있습니다. “이 회의록 500개 안에서만 답해 주세요”라는 조건을 걸면 외부 정보를 지어내기 어렵기 때문입니다. 다만 장문맥 처리의 정확성이 74%인 만큼, 장문 자료 안에서도 놓치거나 왜곡할 여지는 여전히 존재합니다.

결국 GPT-5.5는 “도구의 가능성을 크게 확장했지만, 사람의 감시는 여전히 필수”라는 명제를 다시 한 번 확인시켜 줍니다.

OpenAI GPT-5.5 출시 시각화, AI generated
OpenAI가 4월 23일 발표한 GPT-5.5 — 코딩 강화·가격 2배·슈퍼앱 전략을 한 번에 들고 나왔습니다.

에이전트 전략 — Anthropic을 향한 추격

이번 출시는 단순한 모델 업그레이드를 넘어 OpenAI의 장기 전략 변화를 반영합니다. OpenAI는 GPT-5.5를 통해 “super app” 개념을 실현하려 하고 있습니다. ChatGPT·Codex·AI 브라우저를 하나의 통합 플랫폼으로 묶어, 사용자가 복잡한 다단계 작업을 AI에게 위임할 수 있도록 만들겠다는 의도입니다.

기술적으로는 에이전트 능력 강화가 핵심입니다. GPT-5.5는 “지저분한 다중 단계 작업(messy, multi-part task)”을 자율적으로 처리할 수 있도록 설계되었습니다. 계획 수립, 도구 사용, 결과 검증, 피드백 루프 적용까지 AI가 스스로 판단하고 실행한다는 뜻입니다. 특화 분야로는 코딩(자동 디버깅), 컴퓨터 조작(OS·소프트웨어 상호작용), 온라인 리서치, 데이터 분석, 문서·스프레드시트 작성이 언급되었습니다.

이 흐름은 4월 한 달 사이에 벌어진 모델 경쟁의 마지막 카드이기도 합니다. Opus 4.7 나왔다고 다 갈아탈 필요 없습니다 — 2026년 AI 4강 진짜 영토에서 본 것처럼, 월간 단위로 모델 경쟁이 심화되는 가운데 GPT-5.5는 OpenAI가 에이전트 영역에서 Anthropic을 정면으로 추격하겠다는 선언으로 읽힙니다. Terminal-Bench 2.0의 에이전트 코딩 점수에서 GPT-5.5가 82.7%를 기록하며 Claude Opus 4.7과 거의 동등한 수준에 올랐다는 사실이 이를 뒷받침합니다.

OpenAI가 AI에게 마우스를 쥐여줬다, GPT-5.4 출시 이후 약 두 달 만에 또 다음 모델이 등장했으니, 한국 스타트업의 AI 도입 사이클도 함께 빨라질 수밖에 없습니다. “이번 분기에 GPT-5.4를 도입했더니 다음 분기에는 GPT-5.5로 갈아타야 한다”는 식의 압력은 이미 현실이 되어 있습니다. 구글과 Meta도 이제 동일한 속도로 응답해야 하는 상황입니다.

한국 사용자가 알아야 할 것

한국의 개발자와 기업들에게는 어떤 의미일까요?

ChatGPT Plus·Pro 구독자라면 별도의 설정 없이 자동으로 GPT-5.5에 접근할 수 있습니다. 한글 입력·출력 품질이 GPT-5.4 시리즈와 동등한 수준이라면, 한국어 사용자 경험에 큰 변화는 없을 것으로 보입니다. 다만 OpenAI 공식 발표에 한국어 성능 변화가 별도 명시되지 않은 만큼, 첫 한 주 동안 같은 프롬프트를 GPT-5.4와 GPT-5.5에 각각 넣어 비교해 보기를 권합니다.

API를 직접 사용하는 스타트업과 기업은 상황이 다릅니다. 클로드 코드 vs 구스, AI 코딩 에이전트 가격 전쟁에서 본 가격 경쟁 구도가 GPT-5.5 합류로 더 격렬해졌습니다. 입력 5달러·출력 30달러(1M 토큰당)는 분명 부담이지만, 토큰 효율성 개선이 실제 청구액에 어느 정도 반영되는지를 첫 일주일 안에 자체 워크로드로 확인하는 것이 합리적입니다. 단순 텍스트 생성이 많은 워크플로우보다, 긴 입력을 짧게 요약하거나 다단계 추론을 처리하는 작업에서 효율성 개선 효과가 더 잘 보일 가능성이 큽니다.

코딩이 핵심 업무인 팀이라면 GPT-5.5의 에이전트 능력은 실제 업무 시간 단축으로 이어질 가능성이 높습니다. 자동 디버깅·OS 상호작용·온라인 리서치를 한 모델 안에서 처리할 수 있다는 것은, OpenAI가 만든 초스피드 코딩 AI, 15배 빨라졌다에서 본 흐름이 GPT-5.5에서 한 단계 더 진화했다는 신호이기도 합니다. 특히 4명 이하 소규모 개발팀일수록 도입 효과가 즉시 체감됩니다.

다만 할루시네이션 문제는 여전합니다. 따라서 금융 데이터 분석이나 법률 문서 작성처럼 정확성이 생명인 작업에서는 사람의 검증을 거치는 워크플로우를 그대로 유지해야 합니다. “AI가 초안을 만들고, 사람이 마지막에 사인한다”는 구조는 GPT-5.5 시대에도 변함없이 안전한 기본값입니다.

결론: 지금 갈아탈 사람, 기다릴 사람

GPT-5.5는 코딩과 복잡한 멀티스텝 작업을 자주 하는 사용자에게 지금 당장 가치가 있습니다. ChatGPT Plus 이상 구독자라면 추가 비용 없이 이미 접근할 수 있으므로, 일주일만이라도 자기 워크로드에 적용해 볼 충분한 이유가 있습니다. API를 사용하는 기업이라면 토큰 효율성 개선이 실제 비용 절감으로 이어지는지 자체 워크로드로 검증해 보는 것이 현명합니다.

반대로 일반적인 텍스트 작성이나 질의응답이 중심이라면, Claude Opus 4.7을 비롯한 경쟁 모델과의 성능 차이가 구독료·API 단가 차이를 정당화할 만큼 크지 않으니 지금 당장 옮길 이유는 적습니다. 한국 시장에서 AI 선택지는 이제 달마다 새로워지고 있습니다. 한 번에 모든 워크플로우를 갈아타기보다, 일주일 단위로 자기 업무에 맞는지 확인하는 습관이 결국 더 큰 비용을 아껴 줍니다.