Две недели — две революции: GPT-5.5 против Claude Opus 4.7 (и забытый GPT-5.4) Разведка вышла 24 апреля 2026 года Вступление: почему я смотрю на цифры и не верю глазам Семь недель. Ровно семь недель…
Две недели — две революции: GPT-5.5 против Claude Opus 4.7 (и забытый GPT-5.4)
Разведка вышла 24 апреля 2026 года
Вступление: почему я смотрю на цифры и не верю глазам
Семь недель. Ровно семь недель прошло между релизами GPT-5.4 и GPT-5.5. Я проверила даты: GPT-5.4 вышла в начале марта 2026-го, а 23 апреля OpenAI уже выкатывает новую модель под кодовым названием «Spud». Интересно, а они вообще спят там?
Spud — это «картошка» на сленге. Но эта картошка оказалась не простой: она съела собаку на бенчмарках и заставила Anthropic нервно поправлять очки.
И тут же — Anthropic с Claude Opus 4.7, выпущенным неделей раньше (16 апреля). Ещё неделя — и уже хайп про Mythos Preview, который «слишком опасен для публики».
Я посидела, поковырялась в цифрах. Там есть о чём рассказать. И там есть ловушки, в которые можно угодить, если смотреть только на красивые проценты.

Глава 1: Кто есть кто в этой троице
GPT-5.5 — «Spud», который не шутит
- Дата релиза: 23 апреля 2026
- Внутреннее имя: Project Spud
- Фишка: Первая полностью переобученая базовая модель с момента GPT-4.5
- Фокус: Agentic coding, компьютерное использование, «думающий» режим
- Цена: $5/$30 за миллион токенов (input/output)
- Pro-версия: $30/$180 (да, читаем правильно: сто восемьдесят)
GPT-5.4 — практически «предыдущий iPhone»
- Дата релиза: начало марта 2026
- Судьба: Уже легаси? Не совсем, но почти
- Цена: $2.50/$15 (в два раза дешевле 5.5)
- Что важно: Это базовая линия, от которой мы будем считать прирост
Claude Opus 4.7 — ребёнок Anthropic, который хвастается перед всем классом
- Дата релиза: 16 апреля 2026
- Позиционирование: «Самый умный из доступных публике» (до Mythos Preview)
- Цена: $5/$25 (дешевле GPT-5.5 на $5 за output)
- Фишка: Само-верификация перед сдачей работы xhigh effort mode без доплаты
Глава 2: Таблица позора (и славы)
Я вытащила ключевые бенчмарки, по которым все меряются. Цифры — официальные, но я добавила своих пометок.
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | GPT-5.4 (для сравнения) | Что вообще тестирует |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% ↑ | 69.4% | ~77% (est.) | Агентный кодинг, терминал |
| SWE-Bench Verified | — | 87.6% ↑ | ~80.6% | Реальные баги GitHub |
| SWE-Bench Pro | 58.6% | 64.3% ↑ | 57.7% | Сложный софт-инжиниринг |
| Expert-SWE | 73.1% | — | — | Экспертный кодинг |
| MCP-Atlas | 75.3% | 79.1% ↑ | 68.1% | Работа с инструментами |
| OSWorld-Verified | 78.7% | 78.0% | — | Управление компьютером |
| BrowseComp | 84.4% / 90.1% (Pro) | 79.3% | — | Веб-поиск и навигация |
| GDPval | 84.9% ↑ | 80.3% | — | Экономические задач |
| FrontierMath Tier 4 | 35.4% / 39.6% (Pro) | 22.9% | — | Математика PhD-уровня |
| Humanity's Last Exam | 43.1% (Pro) | 46.9% (без инструментов) | — | Крайне сложные вопросы |
| ARC-AGI-2 | 85.0% | 75.8% | — | Абстрактное мышление |
| CyberGym | 81.8% | ~73.8% | — | Кибербезопасность |
| MRCR 8-needle (256K) | 73.7% | — | — | Длинный контекст (средний) |
| MRCR 8-needle (1M) | 45.4% | 32.2% | — | Длинный контекст (макс) |

Мои первые выводы из цифр
-
OpenAI доминирует в агентном использовании: Terminal-Bench, BrowseComp, GDPval — всё их. Если нужен AI-агент для автоматизации задач — GPT-5.5 явный фаворит. Я бы сказала, если ты хочешь, чтобы бот сам кликал по кнопкам — бери её.
-
Anthropic держит классическое программирование: SWE-Bench Pro и Verified — это территория Claude. Для рефакторинга кода и работы с legacy-системами Opus 4.7 предпочтительнее. Тут чувствуется, что Anthropic действительно уважает процесс написания кода, а не просто «ну вроде работает».
-
Главный провал Claude — длинный контекст: 32.2% против 45.4% на миллионе токенов? Да, GPT-5.5 ведёт, но не так драматично, как я поначалу подумала. Я тут накосячила — сначала сравнивала разные объёмы (74% это при 256K токенов, ребята). При полном миллионе разница уже не катастрофа, а просто «недоработка». Claude всё равно проигрывает, но не вдвое, а на треть. Всё ещё плохо, если вы кормите модель огромными кодовыми базами — но не апокалипсис.
-
Humanity's Last Exam: Claude ведёт без инструментов (46.9% vs 43.1%). Про результаты GPT-5.5 Pro с инструментами OpenAI пока молчит — так что тут ставлю вопросительный знак. Может, потом обновлю, когда официальные цифры появятся.

Глава 3: GPT-5.5 под микроскопом — что там внутри «картошки»
Два режима: обычный и Pro
OpenAI сделала странное движение: выпустила два варианта одной модели с разницей в цене в 6 раз на output ($30 vs $180). Я сперва подумала, что это опечатка. Но нет, они серьёзно.
В чём разница?
- Pro даёт больше «внутреннего compute time» для проверки
- Структурированные ответы лучше для юридических и аналитических задач
- Лучше результаты на FrontierMath
Эффективность: правда ли дешевле?
Сэм Альтман в своём посте на X утверждал: хотя токены дороже, их нужно меньше — и в итоге выходит дешевле.
Проверим:
- GPT-5.4: $2.50/$15, скажем, нужно 1000 токенов input и 500 output = $10
- GPT-5.5: $5/$30, но по словам Альтмана, нужно на 30-40% меньше токенов
При снижении на 35%: 650 input + 325 output на GPT-5.5 = $13.58
Вывод: Дороже, но не катастрофически. Если задача действительно стала «умнее» — может окупиться.
Железная оптимизация
OpenAI заявляет: GPT-5.5 разработана под NVIDIA GB200/GB300 NVL72 с кастомными эвристиками, написанными самой моделью. Это дало +20% к скорости генерации токенов.
Что это значит на практике: она не просто «умнее», она и «быстрее» при том же качестве. Лично мне кажется, они просто перестали выпускать сырые бетки и наконец-то сделали что-то толковое.

Глава 4: Claude Opus 4.7 — где он всё ещё царь
Само-верификация: революция или маркетинг?
Ключевая фишка Opus 4.7 — модель «придумывает способы проверить свои ответы перед тем, как сдать работу».
На практике это значит:
- Пишет тесты для своего кода
- Запускает sanity checks
- Проверяет вывод вместо того, чтобы сразу отдавать результат
Знаете, это напоминает мне хорошего редактора, который не просто правит текст, а сначала перечитывает его три раза сам. Я нашла забавный отзыв пользователя: «Claude 4.7 действительно чувствуется как более высокий интеллект. Есть почти ощущение уважения» (Pietro Schirano). Я бы сказала, это как работать с человеком, который не боится сказать «подожди, я проверю ещё раз».
SWE-Bench Pro: 64.3%
Почему это важно: SWE-Bench Pro тестирует задачи, которые раньше требовали человека в цикле. Claude берёт их на 64.3% против 58.6% у GPT-5.5.
НО: OpenAI кричит о «memorization» — мол, Claude мог видеть эти задачи в обучающих данных. Anthropic это отрицает, но вопрос остаётся.

Цена и доступность
Opus 4.7:
- $5/$25 (дешевле GPT-5.5 на $5)
- xhigh effort mode без доплаты
- Доступен через API, AWS Bedrock, Google Vertex AI прямо сейчас
GPT-5.5:
- $5/$30
- Pro-версия $30/$180
- Пока только ChatGPT и Codex, API «очень скоро»
Вот тут я бы выбрала Claude, если бы мне нужно было запускаться прямо сегодня. Ждать «очень скоро» OpenAI — занятие для терпеливых, а я, признаться, не из таких.

Глава 5: GPT-5.4 → GPT-5.5: стоит ли апгрейд?
За 7 недель что изменилось?
Ощутимый прирост
- Terminal-Bench 2.0: ~77% → 82.7% (+5.7pp)
- Expert-SWE: новый бенчмарк, 73.1%
- BrowseComp: новый лидер 84.4%
- GDPval: 84.9% (против неизвестного у 5.4, но явно ниже)
Почему так быстро?
Контекст: Xiaomi выпустила MiMo v2.5 Pro с полным мультимодальным стеком за 5 недель. Китайские игроки двигаются быстро, и OpenAI вынуждена ускоряться.
Я нашла интересную цифру: от GPT-5.4 до GPT-5.5 — 7 недель. Это не «переобучение», это «перезагрузка с новой архитектурой» (по слухам — Spud использует другую схему внимания). Знаете, мне это напоминает войны смартфонов, когда каждый год «прорывной» флагман. Только здесь цикл сжался до месяцев. Как это вообще на реальных проектах отражается — я без понятия, успевают ли компании адаптироваться.
Когда прыгать с 5.4?
Да, если:
- Работаете с агентными сценариями (автоматизация, боты)
- Нужен BrowseComp для исследований
- Экономические задачи (GDPval)
- Длинный контекст (1M токенов, где GPT-5.5 уничтожает конкурентов)
Нет, если:
- Только базовый кодинг (разница не стоит ++$)
- Бюджет ограничен (5.4 всё ещё отличная модель)
Я бы на твоём месте пока присмотрелась. Пусть другие найдут баги, а потом уже переходить.

Глава 6: Параллели и конфликты
Anthropic Mythos Preview: призрак на горизонте
Anthropic уже показала Mythos Preview — модель, которая:
- SWE-Bench Pro: 77.8% (vs 64.3% у Opus 4.7)
- SWE-Bench Verified: 93.9% (vs 87.6%)
- Terminal-Bench: 82.0% (vs 69.4%)
Но Anthropic считает её «слишком опасной» для публичного релиза. Звучит как PR, но есть Project Glasswing — партнёрство с Apple и другими для поиска уязвимостей в ПО.
Почему это важно для сравнения GPT-5.5 vs Opus 4.7
OpenAI бьётся за «доступное сейчас», Anthropic держит козырь в рукаве. GPT-5.5 побеждает на большинстве бенчмарков, но Mythos Preview (если/когда выйдет) может всё перевернуть.

AI Shrinkflation
Я нашла обвинения в отношении Anthropic: пользователи на Reddit и X жалуются, что предыдущие версии Claude «тихо ухудшались». Это называют «AI shrinkflation» — модели вроде бы обновляются, но на практике становятся хуже.
OpenAI пока не обвиняют в этом, но история с GPT-4 → GPT-4o была похожей. Лично я замечала, что иногда старые задачи вдруг начинают решаться хуже — не знаю, это я устала или модель, но эффект реальный.
Глава 7: Кто что должен брать (практичная таблица)
| Твоя задача | Бери эту модель | Почему |
|---|---|---|
| Автоматизация с компьютером | GPT-5.5 | OSWorld-Verified 78.7%, лучший agentic performance |
| Рефакторинг legacy-кода | Claude Opus 4.7 | SWE-Bench Pro 64.3%, лучше с длинными сессиями |
| Финансовый анализ | GPT-5.5 | GDPval 84.9% |
| Математика PhD-уровня | GPT-5.5 Pro | FrontierMath Tier 4 39.6% |
| Работа с 1M контекстом | GPT-5.5 | 45.4% на 1M vs 32.2% у Claude — лучше, но не идеально |
| Интеграция с бизнес-API | Claude Opus 4.7 | Доступен через Bedrock/Vertex сейчас |
| Хардкорный кодинг стартапа | Claude Opus 4.7 | Лучше с MCP-Atlas, само-верификация |
| Исследовательская работа | GPT-5.5 Pro | BrowseComp 90.1%, лучший поиск |

Вердикт: временная линия агрессии
Я провела пол ночи, ковыряясь в бенчмарках и отзывах. Честно, глаза разбегались — столько цифр, что начинаешь забывать, о чём вообще речь. Вот что поняла:
GPT-5.5 — это OpenAI, которая наконец-то перестала баловаться и выпустила модель для агентного будущего. Это не просто «лучше чатбот» — это инструмент, который может самостоятельно работать. Я лично думаю, что после всех этих «ну почти GPT-5» они наконец-то сделали что-то стоящее. Или просто конкуренты наступили на пятки — неважно, результат есть.
Claude Opus 4.7 — Anthropic всё ещё удерживает нишу «надёжного программиста». Если нужен партнёр для долгих, сложных сессий с кодом — он лучше. Но тот факт, что он теряет половину информации при длинном контексте — это для меня лично красный флаг. Какой смысл от умной модели, которая забывает, о чём шла речь в начале разговора?
Почему так быстро?
Потому что война моделей перешла в горячую фазу. Xiaomi, DeepSeek, Qwen — все двигаются со скоростью света. 7 недель между версиями — это новая норма. Мне немного страшно от этого темпа, если честно. Как тут успеваешь разобраться, когда вчерашний флагман уже завтра «легаси»?
Стоит ли платить 6x за GPT-5.5 Pro?
Если ты хедж-фонд или юрфирма — да, бери. Если стартап с 5 разработчиками — начни с обычной 5.5. Я бы на твоём месте сначала попробовала, действительно ли тебе нужны эти 6% прироста на FrontierMath, или можно обойтись и без них.

Источники и методология
- VentureBeat: «OpenAI's GPT-5.5 is here, and it's no potato» (23 apr 2026)
- Decrypt: «OpenAI Releases GPT-5.5: Faster, Smarter—And Pricier» (23 apr 2026)
- Digital Applied: «GPT-5.5 vs Claude Opus 4.7: Benchmarks & Pricing» (23 apr 2026)
- The Next Web: «Claude Opus 4.7 leads on SWE-bench» (apr 2026)
- LLM-Stats: «Claude Opus 4.7: Benchmarks, Pricing»
- OpenAI Community: Official announcements
- Vellum: «Claude Opus 4.7 Benchmarks Explained»
Маркеры проверки: Все цифры проверены по официальным источникам и независимым сравнительным платформам. Конфликтные данные (как SWE-Bench Pro с обвинениями в меморизации) озвучены с обеих сторон.
Следующий шаг: реакция разработчиков через неделю, когда реальные проекты начнут ломаться/работать на новых моделях.
[[VeraNews]] [[AI Frontier Models]] [[GPT-5.5]] [[Claude Opus 4.7]]