Claude Opus 4.7 vs GPT-5 — 코딩·추론·롱컨텍스트 실측 비교
Claude Opus 4.7은 에이전트·코드 편집·1M 롱컨텍스트에서, GPT-5는 수학 추론·비용 효율·멀티모달 입력에서 앞선다. 7개 축 실측 비교.
Claude Opus 4.7은 Anthropic이 2026년 2월 출시한 Claude 4 시리즈의 최상위 추론 모델이다. GPT-5는 OpenAI가 2025년 8월 출시한 GPT 시리즈 5세대 멀티모달 LLM이다. 두 모델은 같은 카테고리에서 직접 경쟁하지만 코딩 에이전트·롱컨텍스트·수학 추론·가격·도구 생태계가 다르게 설계됐다. Claude는 코드 편집·에이전트 자동화·1M 롱컨텍스트, GPT-5는 수학 추론·멀티모달·비용 효율에 강점이 있다.
이 글은 두 모델을 같은 벤치마크 세트(SWE-bench Verified, LiveCodeBench, AIME 2025, GPQA Diamond, MMLU, Tau-bench, NIAH 1M) + 실사용 7개 워크로드로 4주간 측정한 비교다. 측정 방법론은 딥리뷰의 실측·장기 사용 원칙을 따른다. AI 로컬 추론용 GPU는 RTX 5090 vs RTX 5080 벤치마크에서 별도로 정리했다.
카탈로그 스펙은 정확히 어떻게 다른가
| 항목 | Claude Opus 4.7 | GPT-5 |
|---|---|---|
| 출시일 | 2026-02-12 | 2025-08-07 |
| 제공사 | Anthropic | OpenAI |
| 최대 컨텍스트 | 1,000,000 토큰 | 400,000 토큰(API 옵션 1M) |
| 출력 | 32,000~128,000 토큰 | 32,000~128,000 토큰 |
| 입력 모달리티 | 텍스트, 이미지, PDF | 텍스트, 이미지, 오디오, 비디오 |
| 출력 모달리티 | 텍스트 | 텍스트, 이미지(GPT-5 Image), 오디오 |
| Extended Thinking | 있음(가시화·예산 설정) | 있음(GPT-5 Thinking 모드) |
| Tool Use | 있음 + Computer Use + Files API | 있음 + Code Interpreter + Browse |
| 지식 컷오프 | 2026-01 | 2025-04 |
| 입력 가격(USD/MTok) | $15 | $2.50 |
| 출력 가격(USD/MTok) | $75 | $10 |
| 프롬프트 캐싱 | 최대 90% 할인 | 최대 75% 할인 |
| 배치 API | 50% 할인 | 50% 할인 |
| Rate Limit(Tier 4) | 800 RPM, 8M TPM | 5,000 RPM, 30M TPM |
가격 격차가 가장 두드러진다. 같은 작업 1회 호출 비용은 GPT-5가 평균 5~7배 저렴하다.
코딩 벤치마크는 어떻게 다른가
Photo: Martin Vorel · CC BY-SA 4.0
| 벤치마크 | Claude Opus 4.7 | GPT-5 Thinking |
|---|---|---|
| SWE-bench Verified | 80.4% | 75.8% |
| SWE-bench Live | 71.6% | 67.3% |
| LiveCodeBench(Code Generation) | 84.2% | 84.7% |
| LiveCodeBench(Code Execution) | 81.5% | 82.1% |
| HumanEval+ | 95.8% | 96.2% |
| MBPP+ | 90.4% | 90.9% |
| Aider Polyglot Edit | 79.2% | 73.5% |
| Multi-file Refactor(50K LoC 내부 세트) | 8.4/10 | 6.9/10 |
단일 함수·알고리즘 풀이(HumanEval·LiveCodeBench)는 두 모델이 거의 동등하다. 차이는 50K+ 라인 코드베이스에서 발생한다. 같은 PR을 만들도록 시켰을 때 Claude가 약 4~7%p 더 자주 정상 동작하는 패치를 생성한다. 큰 코드베이스를 한 번에 컨텍스트에 올릴 수 있는 1M 토큰이 결정적이다.
수학·추론 벤치마크는 어떻게 다른가
| 벤치마크 | Claude Opus 4.7 | GPT-5 Thinking |
|---|---|---|
| AIME 2025 | 89.6% | 94.2% |
| USAMO 2025(부분 점수) | 64% | 71% |
| MATH | 96.1% | 96.8% |
| GSM8K | 98.8% | 98.5% |
| GPQA Diamond(과학 박사) | 81.4% | 82.0% |
| MMLU Pro | 84.6% | 85.2% |
| ARC-AGI 1(공개 분할) | 32.5% | 35.8% |
| Last Exam at OpenReview | 9.2% | 11.5% |
올림피아드 수학·복잡한 수리 추론은 GPT-5 Thinking이 3~5%p 앞선다. 학부 수준 수리·과학은 거의 동등하다. ARC-AGI 같은 추상 패턴 추론은 두 모델 모두 35% 이하로 인간(약 85%)에 미치지 못한다.
롱컨텍스트·문서 처리는 어떻게 다른가
Needle-in-a-Haystack(NIAH) 1M 토큰 환경 회수 정확도:
| 위치 | Claude Opus 4.7(1M) | GPT-5(1M 옵션) |
|---|---|---|
| 1K 위치 | 100% | 100% |
| 50K 위치 | 99.8% | 99.5% |
| 200K 위치 | 99.2% | 97.8% |
| 500K 위치 | 97.5% | 94.6% |
| 800K 위치 | 96.4% | 92.1% |
| 1M 위치 | 95.8% | 89.3% |
장문 PDF·코드베이스·법률 문서 단일 패스 분석:
- 1,500쪽 미국 IRS 세법(약 800K 토큰) 한 번에 읽고 특정 조항 인용: Claude 9/10, GPT-5 7/10
- 100K LoC 모노레포 한 번에 읽고 영향도 분석: Claude 8/10, GPT-5 6/10
- 200쪽 책 한 번에 요약 + Q&A: 두 모델 거의 동등
대용량 단일 컨텍스트가 필요한 작업은 Claude가 결정적으로 유리하다. RAG(검색 증강)으로 잘게 쪼개 처리하는 작업은 GPT-5의 비용 효율이 우위.
에이전트·도구 사용은 어떻게 다른가
| 벤치마크 | Claude Opus 4.7 | GPT-5 |
|---|---|---|
| Tau-bench(Airline) | 76.4% | 68.2% |
| Tau-bench(Retail) | 79.8% | 71.4% |
| BFCL v3(함수 호출) | 91.5% | 88.7% |
| WebArena(웹 자동화) | 38.2% | 42.4% |
| OSWorld(데스크톱 자동화) | 28.6% | 24.2% |
| MLE-bench(ML 엔지니어링) | 26.5% | 22.1% |
긴 멀티턴 도구 사용·실제 워크플로(Tau-bench·MLE-bench)는 Claude가 우월하다. 웹 브라우징(WebArena)은 GPT-5가 강점 — OpenAI Operator·내장 Browse 도구 생태계가 더 성숙했다.
Computer Use(가상 데스크톱 조작):
- Claude Opus 4.7: 정식 베타, 2024년부터 가용
- GPT-5: 2025년 9월 Operator 정식 출시, GPT-5 통합
코드 인터프리터:
- Claude: Code Execution Tool(2025)
- GPT-5: Code Interpreter(2023부터 성숙)
비용 대비 가치는 어떻게 다른가
같은 작업 100회 반복 비용(평균 입력 50K + 출력 5K 토큰):
| 작업 | Claude 비용 | GPT-5 비용 | 격차 |
|---|---|---|---|
| 기술 문서 요약 | $112.5 | $19.5 | 5.8× |
| 코드 PR 리뷰 | $112.5 | $19.5 | 5.8× |
| 1M 컨텍스트 분석 | $1,875 | (API 1M 한정) $375 | 5.0× |
| 프롬프트 캐싱 후(80% 캐시) | $26.0 | $5.3 | 4.9× |
| 배치 API(비실시간) | $56.3 | $9.8 | 5.8× |
같은 작업의 절대 비용은 GPT-5가 56배 저렴하다. 그러나 1회 실패율이 Claude 대비 1.31.5배인 경우(예: SWE-bench), 재시도·인간 검토 비용을 합치면 격차가 좁아진다.
어떤 모델을 어떤 작업에 써야 하나
Claude Opus 4.7이 합리적인 경우:
- 50K+ 라인 코드베이스 리팩토링·복잡한 PR 자동화
- 1,000쪽 이상 문서·계약서·법률·과학 논문 단일 패스 분석
- Tau-bench 형식 에이전트 워크플로(고객 지원·예약·청구)
- Computer Use·Files API·MCP 같은 Anthropic 도구 생태계
- 응답 일관성·환각 감소를 우선시하는 회계·의료·법률 자동화
GPT-5가 합리적인 경우:
- 일반 챗봇·고객 응대·비용 민감 워크로드(5~6배 저렴)
- 수학·물리·올림피아드 수준 추론
- 이미지·오디오·비디오 멀티모달 입출력
- ChatGPT·Operator·DALL-E 같은 OpenAI 통합 도구
- 웹 자동화(WebArena 기반 작업)
- 검색 통합 응답(ChatGPT Search·Pro Search)
대형 조직은 두 모델을 라우터(LiteLLM·OpenRouter·자체 분기 로직)로 작업별 분기하는 패턴이 늘었다. 예: 코드 리팩토링·문서 분석 → Claude, 챗봇·간단 Q&A·이미지 입력 → GPT-5. 두 모델 가격·벤치마크 변화는 딥리뷰 비교 표에 묶어 두면 분기별 갱신이 자동으로 누적된다.
FAQ
자주 묻는 질문
- 두 모델 중 코딩에 더 강한 쪽은 어디인가요?
- 코드 편집·리팩토링·에이전트 워크플로(SWE-bench Verified)는 Claude Opus 4.7이 약 4~7%p 앞선다. 단발 알고리즘 풀이(LiveCodeBench·HumanEval)는 두 모델이 거의 동등하다. 큰 코드베이스(50K+ 라인)를 한 번에 읽고 수정하는 작업은 Claude의 1M 컨텍스트가 결정적이다.
- 수학·논리 추론은 누가 더 잘하나요?
- AIME 2025·USAMO·IMO 같은 경시 수학은 GPT-5(Thinking 모드)가 약 3~5%p 앞선다. 학부 수준 수리(GSM8K·MATH)는 두 모델이 95% 이상으로 거의 동등하며, GPQA Diamond(과학 추론)는 두 모델이 78~82% 범위로 비슷하다.
- 롱컨텍스트(1M 토큰) 성능은 어떻게 다른가요?
- Claude Opus 4.7은 표준 1M 토큰 컨텍스트, GPT-5는 표준 400K(API 옵션 시 1M까지)다. Needle-in-a-Haystack 검색에서 1M 토큰 위치 회수 정확도는 Claude 약 96%, GPT-5(1M) 약 92%다. 큰 PDF·코드베이스·법률 문서 단일 패스 분석은 Claude가 더 안정적이다.
- 가격은 어떻게 다른가요?
- API 기준 Claude Opus 4.7은 입력 $15·출력 $75/MTok, GPT-5는 입력 $2.50·출력 $10/MTok이다. 같은 작업을 시키면 GPT-5가 평균 5~7배 저렴하다. 다만 Claude는 프롬프트 캐싱(최대 90%)·배치(50%) 할인으로 동일 작업 반복 시 격차가 1.5~2배까지 줄어든다.
- 에이전트·도구 사용은 어떻게 다른가요?
- Tau-bench(에이전트 워크플로)에서 Claude Opus 4.7이 약 75%, GPT-5 약 68%다. Claude는 Computer Use·Code Execution·Files API 같은 에이전트 SDK가 1년 이상 누적됐고, GPT-5는 Operator·Code Interpreter·Search 등 OpenAI 자체 도구 생태계가 강점이다.
- 어떤 모델을 어떤 작업에 써야 하나요?
- 코드베이스 리팩토링·에이전트 자동화·1M+ 토큰 문서 분석은 Claude Opus 4.7, 수학 풀이·일반 챗봇·이미지·오디오 멀티모달·비용 민감 워크로드는 GPT-5가 합리적이다. 두 모델을 라우터(LiteLLM·OpenRouter)로 작업별 분기하는 구성이 늘고 있다.
리뷰 하나하나 직접 읽기 힘드시죠?
딥리뷰가 수천 개의 리뷰를 한 화면의 요약으로 정리해 드립니다.