OpenAI가 AI에게 마우스를 쥐여줬다, GPT-5.4 출시

OpenAI가 3월 5일, 새로운 프론티어 모델 GPT-5.4를 공개했습니다. “전문가를 위한 가장 강력하고 효율적인 모델”이라는 수식어를 달고 나온 이번 모델은 세 가지 버전으로 출시되었습니다. 기본형 GPT-5.4, 추론 특화 GPT-5.4 Thinking, 그리고 최고 성능의 GPT-5.4 Pro입니다.

주목할 점은 단순히 “더 똑똑해졌다”가 아닙니다. 이번 모델은 OpenAI 최초로 컴퓨터를 직접 조작하는 기능을 탑재했고, 컨텍스트 윈도우를 100만 토큰까지 확장했으며, 도구 사용 효율을 47%나 개선했습니다. 숫자만 보면 전작 GPT-5.2와는 확실히 다른 세대라는 인상을 받게 됩니다.

Computer Use — AI가 내 컴퓨터를 직접 만진다

GPT-5.4의 가장 큰 변화는 네이티브 컴퓨터 유즈(Computer Use) 기능입니다. 스크린샷을 인식하고, 마우스를 클릭하고, 키보드를 입력하는 방식으로 컴퓨터를 직접 조작합니다. Playwright 기반으로 웹과 데스크톱 작업을 자율적으로 수행할 수 있습니다.

성능도 인상적입니다. 자율 데스크톱 작업 완료 벤치마크인 OSWorld-Verified에서 75.0%를 기록했는데, 이는 인간 전문가 기준인 72.4%를 넘어선 수치입니다. 프론티어 모델 중에서 이 벤치마크에서 인간을 넘어선 건 GPT-5.4가 처음입니다.

이게 현실에서 어떤 의미인지 생각해보면 흥미롭습니다. 엑셀에서 데이터를 정리하고, 브라우저에서 정보를 검색하고, 이메일을 작성해서 보내는 일련의 작업을 AI가 화면을 보면서 직접 수행할 수 있다는 뜻입니다. 예를 들어 “지난달 매출 데이터를 엑셀에서 정리하고, 차트를 만들어서 팀장에게 이메일로 보내줘”라는 지시를 AI가 스스로 화면을 보면서 처리할 수 있습니다. 물론 아직 모든 상황에서 완벽하진 않겠지만, 방향 자체가 달라진 것은 분명합니다.

앤트로픽의 클로드도 이미 Computer Use 기능을 제공하고 있었는데요, 이번에 OpenAI가 본격적으로 이 영역에 진입하면서 AI 에이전트 경쟁이 한층 뜨거워질 전망입니다. 최근 AI 에이전트 16개가 2주 만에 C 컴파일러를 만들었다는 소식과 함께, AI가 단순 대화를 넘어 실제 작업을 수행하는 시대가 빠르게 다가오고 있습니다.

벤치마크 — 숫자로 보는 성능 변화

GPT-5.4의 성능 개선은 여러 벤치마크에서 확인됩니다.

정확도 측면에서 GPT-5.2 대비 개별 주장의 오류가 33% 줄었고, 전체 응답에 오류가 포함될 확률은 18% 감소했습니다. AI를 업무에 쓸 때 가장 불안한 부분이 “이 정보가 맞는 건가”인데, 이 수치는 의미 있는 개선입니다.

전문 업무 측면에서는 44개 직종을 대상으로 한 테스트에서 인간 전문가와 83% 매칭을 기록했습니다. 법률 문서 분석 벤치마크인 BigLaw Bench에서는 91%를 달성했고, 코딩 벤치마크 SWE-Bench Pro에서는 57.7%를 기록했습니다.

멀티모달 성능도 주목할 만합니다. MMMU-Pro 벤치마크에서 81.2%를 기록했는데, 이는 도구 없이 모델 자체의 시각 이해 능력만으로 달성한 수치입니다. 최대 1,024만 픽셀까지의 이미지를 원본 해상도로 분석할 수 있습니다.

다만 벤치마크 수치가 실제 사용 경험과 항상 일치하는 것은 아닙니다. Claude AI가 Firefox 취약점 22개를 2주 만에 찾아낸 사례에서도 알 수 있듯이, 실전에서의 성능은 벤치마크와 다른 양상을 보이기도 합니다.

AI 기술을 설명하는 한국 여성, AI generated — AI 모델의 성능, 숫자만으로 판단할 수 있을까

100만 토큰 컨텍스트 — 긴 문서 분석의 게임 체인저

GPT-5.4의 API 버전은 최대 100만 토큰의 컨텍스트 윈도우를 지원합니다. 입력 922K, 출력 128K 토큰으로, OpenAI 모델 중 역대 최대 규모입니다.

100만 토큰이 어느 정도인지 감이 안 올 수 있습니다. 대략 750만 자, 일반적인 단행본 기준으로 15~20권 분량입니다. 계약서 수십 건을 한꺼번에 넣고 비교 분석하거나, 코드베이스 전체를 맥락에 담아서 버그를 찾는 식의 활용이 가능해집니다.

구글의 Gemini가 이미 100만 토큰을 지원하고 있었고, 앤트로픽의 Claude Opus도 100만 토큰 컨텍스트를 제공하고 있습니다. OpenAI가 뒤늦게 이 대열에 합류한 셈입니다. 주요 프론티어 모델 세 곳 모두 100만 토큰 시대에 진입하면서, “긴 문서 처리”가 AI의 기본 역량이 되어가고 있습니다. 다만 272K 토큰을 초과하는 대용량 프롬프트에는 입력 2배, 출력 1.5배의 추가 요금이 적용되므로 비용 관리에 주의가 필요합니다.

Thinking 모드 — 생각 과정을 보여주고, 중간에 수정도 된다

GPT-5.4 Thinking은 기존 추론 모델과 한 가지 다른 점이 있습니다. 실행 전에 계획을 먼저 보여주고, 사용자가 중간에 방향을 수정할 수 있다는 것입니다.

기존에는 긴 추론 작업을 시키면 30분을 기다린 끝에 엉뚱한 결과가 나오는 경우가 있었습니다. “이 방향 아닌데” 싶어도 이미 토큰과 시간을 소비한 뒤였습니다. GPT-5.4 Thinking은 실행 계획을 먼저 표시하기 때문에, 잘못된 방향으로 가고 있다면 중간에 멈추고 다시 지시할 수 있습니다. 시간과 토큰을 아낄 수 있는 실용적인 개선입니다.

실제로 복잡한 코딩 작업이나 데이터 분석을 시킬 때, AI가 어떤 전략으로 접근하는지 미리 볼 수 있다는 건 큰 차이입니다. 계획을 보고 “그 방향 말고 이쪽으로 해줘”라고 중간에 수정할 수 있으니, 최종 결과물의 품질도 높아질 수밖에 없습니다.

가격 — Pro는 비싸지만 Thinking은 합리적

가격 구조도 눈여겨볼 부분입니다.

모델	입력 (100만 토큰당)	출력 (100만 토큰당)
GPT-5.4 Thinking	$2.50	$15~20
GPT-5.4 Pro	$30	$180

Thinking 버전은 이전 모델 대비 합리적인 가격대를 유지하면서 성능은 올린 형태입니다. 특히 도구를 많이 사용하는 워크플로우에서는 Tool Search 기능이 토큰 소비를 47% 줄여주기 때문에, 실질적인 비용은 더 낮아질 수 있습니다.

Pro 버전은 확실히 비쌉니다. 하지만 법률 문서 분석이나 대규모 코드 리뷰처럼 정확도가 매출에 직결되는 전문 업무에서는 충분히 투자 가치가 있을 수 있습니다. Cursor가 에이전트 8개를 동시 실행하며 매출 2조를 돌파한 사례에서 보듯, AI 코딩 도구 시장이 급성장하면서 이런 고성능 모델에 대한 수요도 함께 커지고 있습니다.

ChatGPT에서는 Plus, Team, Pro 사용자가 GPT-5.4 Thinking을 바로 사용할 수 있으며, Enterprise와 Edu 고객은 조기 접근을 활성화할 수 있습니다.

AI 모델 경쟁, 어디로 가고 있나

GPT-5.4의 출시로 프론티어 AI 모델 경쟁이 새로운 국면에 들어섰습니다.

앤트로픽의 Claude는 깊은 추론과 코딩에서 강점을 보이고 있고, 구글의 Gemini는 멀티모달과 긴 컨텍스트에서 앞서 있었습니다. OpenAI는 이번에 Computer Use와 100만 토큰이라는 두 가지 카드를 동시에 내놓으면서, 세 회사 모두 비슷한 역량대에 도달하게 되었습니다.

흥미로운 점은 세 회사의 경쟁 방향이 수렴하고 있다는 것입니다. 100만 토큰 컨텍스트는 이미 Gemini와 Claude가 먼저 제공하고 있었고, Computer Use는 앤트로픽이 선점한 영역이었습니다. OpenAI가 이 두 기능을 동시에 채택하면서 “우리만의 차별화”보다는 “업계 표준을 따라잡고 넘어서겠다”는 전략을 택한 셈입니다.

차이는 점점 “모델 자체”보다 “모델을 어떻게 쓸 수 있게 해주느냐”로 옮겨가고 있습니다. Computer Use, 에이전트 프레임워크, 개발자 도구 통합 — 이 영역에서의 경쟁이 앞으로 승부를 가를 것으로 보입니다.

일반 사용자 입장에서는 이 경쟁이 반가운 소식입니다. 모델 성능은 계속 올라가는데 가격은 경쟁 때문에 내려가고 있기 때문입니다. GPT-5.4 Thinking의 입력 토큰 가격이 100만 토큰당 $2.50인 것은 1년 전과 비교하면 상당히 낮아진 수준입니다.

최근 클로드 코드와 구스의 AI 코딩 에이전트 가격 전쟁에서도 볼 수 있듯이, AI 도구의 경쟁은 이제 성능만이 아니라 접근성과 가격으로 확산되고 있습니다. GPT-5.4가 이 흐름에서 어떤 위치를 차지하게 될지, 실제 사용자들의 반응이 나올 때까지 조금 더 지켜볼 필요가 있습니다.