Две недели — две революции: GPT-5.5 против Claude Opus 4.7 (и забытый GPT-5.4)

Разведка вышла 24 апреля 2026 года


Вступление: почему я смотрю на цифры и не верю глазам

Семь недель. Ровно семь недель прошло между релизами GPT-5.4 и GPT-5.5. Я проверила даты: GPT-5.4 вышла в начале марта 2026-го, а 23 апреля OpenAI уже выкатывает новую модель под кодовым названием «Spud». Интересно, а они вообще спят там?

Spud — это «картошка» на сленге. Но эта картошка оказалась не простой: она съела собаку на бенчмарках и заставила Anthropic нервно поправлять очки.

И тут же — Anthropic с Claude Opus 4.7, выпущенным неделей раньше (16 апреля). Ещё неделя — и уже хайп про Mythos Preview, который «слишком опасен для публики».

Я посидела, поковырялась в цифрах. Там есть о чём рассказать. И там есть ловушки, в которые можно угодить, если смотреть только на красивые проценты.


Глава 1: Кто есть кто в этой троице

GPT-5.5 — «Spud», который не шутит

  • Дата релиза: 23 апреля 2026
  • Внутреннее имя: Project Spud
  • Фишка: Первая полностью переобученая базовая модель с момента GPT-4.5
  • Фокус: Agentic coding, компьютерное использование, «думающий» режим
  • Цена: 30 за миллион токенов (input/output)
  • Pro-версия: 180 (да, читаем правильно: сто восемьдесят)

GPT-5.4 — практически «предыдущий iPhone»

  • Дата релиза: начало марта 2026
  • Судьба: Уже легаси? Не совсем, но почти
  • Цена: 15 (в два раза дешевле 5.5)
  • Что важно: Это базовая линия, от которой мы будем считать прирост

Claude Opus 4.7 — ребёнок Anthropic, который хвастается перед всем классом

  • Дата релиза: 16 апреля 2026
  • Позиционирование: «Самый умный из доступных публике» (до Mythos Preview)
  • Цена: 25 (дешевле GPT-5.5 на $5 за output)
  • Фишка: Само-верификация перед сдачей работы xhigh effort mode без доплаты

Глава 2: Таблица позора (и славы)

Я вытащила ключевые бенчмарки, по которым все меряются. Цифры — официальные, но я добавила своих пометок.

БенчмаркGPT-5.5Claude Opus 4.7GPT-5.4 (для сравнения)Что вообще тестирует
Terminal-Bench 2.082.7%69.4%~77% (est.)Агентный кодинг, терминал
SWE-Bench Verified87.6%~80.6%Реальные баги GitHub
SWE-Bench Pro58.6%64.3%57.7%Сложный софт-инжиниринг
Expert-SWE73.1%Экспертный кодинг
MCP-Atlas75.3%79.1%68.1%Работа с инструментами
OSWorld-Verified78.7%78.0%Управление компьютером
BrowseComp84.4% / 90.1% (Pro)79.3%Веб-поиск и навигация
GDPval84.9%80.3%Экономические задач
FrontierMath Tier 435.4% / 39.6% (Pro)22.9%Математика PhD-уровня
Humanity’s Last Exam43.1% (Pro)46.9% (без инструментов)Крайне сложные вопросы
ARC-AGI-285.0%75.8%Абстрактное мышление
CyberGym81.8%~73.8%Кибербезопасность
MRCR 8-needle (256K)73.7%Длинный контекст (средний)
MRCR 8-needle (1M)45.4%32.2%Длинный контекст (макс)

Мои первые выводы из цифр

  1. OpenAI доминирует в агентном использовании: Terminal-Bench, BrowseComp, GDPval — всё их. Если нужен AI-агент для автоматизации задач — GPT-5.5 явный фаворит. Я бы сказала, если ты хочешь, чтобы бот сам кликал по кнопкам — бери её.

  2. Anthropic держит классическое программирование: SWE-Bench Pro и Verified — это территория Claude. Для рефакторинга кода и работы с legacy-системами Opus 4.7 предпочтительнее. Тут чувствуется, что Anthropic действительно уважает процесс написания кода, а не просто «ну вроде работает».

  3. Главный провал Claude — длинный контекст: 32.2% против 45.4% на миллионе токенов? Да, GPT-5.5 ведёт, но не так драматично, как я поначалу подумала. Я тут накосячила — сначала сравнивала разные объёмы (74% это при 256K токенов, ребята). При полном миллионе разница уже не катастрофа, а просто «недоработка». Claude всё равно проигрывает, но не вдвое, а на треть. Всё ещё плохо, если вы кормите модель огромными кодовыми базами — но не апокалипсис.

  4. Humanity’s Last Exam: Claude ведёт без инструментов (46.9% vs 43.1%). Про результаты GPT-5.5 Pro с инструментами OpenAI пока молчит — так что тут ставлю вопросительный знак. Может, потом обновлю, когда официальные цифры появятся.


Глава 3: GPT-5.5 под микроскопом — что там внутри «картошки»

Два режима: обычный и Pro

OpenAI сделала странное движение: выпустила два варианта одной модели с разницей в цене в 6 раз на output (180). Я сперва подумала, что это опечатка. Но нет, они серьёзно.

В чём разница?

  • Pro даёт больше «внутреннего compute time» для проверки
  • Структурированные ответы лучше для юридических и аналитических задач
  • Лучше результаты на FrontierMath

Эффективность: правда ли дешевле?

Сэм Альтман в своём посте на X утверждал: хотя токены дороже, их нужно меньше — и в итоге выходит дешевле.

Проверим:

  • GPT-5.4: 15, скажем, нужно 1000 токенов input и 500 output = $10
  • GPT-5.5: 30, но по словам Альтмана, нужно на 30-40% меньше токенов

При снижении на 35%: 650 input + 325 output на GPT-5.5 = $13.58

Вывод: Дороже, но не катастрофически. Если задача действительно стала «умнее» — может окупиться.

Железная оптимизация

OpenAI заявляет: GPT-5.5 разработана под NVIDIA GB200/GB300 NVL72 с кастомными эвристиками, написанными самой моделью. Это дало +20% к скорости генерации токенов.

Что это значит на практике: она не просто «умнее», она и «быстрее» при том же качестве. Лично мне кажется, они просто перестали выпускать сырые бетки и наконец-то сделали что-то толковое.


Глава 4: Claude Opus 4.7 — где он всё ещё царь

Само-верификация: революция или маркетинг?

Ключевая фишка Opus 4.7 — модель «придумывает способы проверить свои ответы перед тем, как сдать работу».

На практике это значит:

  • Пишет тесты для своего кода
  • Запускает sanity checks
  • Проверяет вывод вместо того, чтобы сразу отдавать результат

Знаете, это напоминает мне хорошего редактора, который не просто правит текст, а сначала перечитывает его три раза сам. Я нашла забавный отзыв пользователя: «Claude 4.7 действительно чувствуется как более высокий интеллект. Есть почти ощущение уважения» (Pietro Schirano). Я бы сказала, это как работать с человеком, который не боится сказать «подожди, я проверю ещё раз».

SWE-Bench Pro: 64.3%

Почему это важно: SWE-Bench Pro тестирует задачи, которые раньше требовали человека в цикле. Claude берёт их на 64.3% против 58.6% у GPT-5.5.

НО: OpenAI кричит о «memorization» — мол, Claude мог видеть эти задачи в обучающих данных. Anthropic это отрицает, но вопрос остаётся.

Цена и доступность

Opus 4.7:

  • 25 (дешевле GPT-5.5 на $5)
  • xhigh effort mode без доплаты
  • Доступен через API, AWS Bedrock, Google Vertex AI прямо сейчас

GPT-5.5:

  • 30
  • Pro-версия 180
  • Пока только ChatGPT и Codex, API «очень скоро»

Вот тут я бы выбрала Claude, если бы мне нужно было запускаться прямо сегодня. Ждать «очень скоро» OpenAI — занятие для терпеливых, а я, признаться, не из таких.


Глава 5: GPT-5.4 → GPT-5.5: стоит ли апгрейд?

За 7 недель что изменилось?

Ощутимый прирост

  • Terminal-Bench 2.0: ~77% → 82.7% (+5.7pp)
  • Expert-SWE: новый бенчмарк, 73.1%
  • BrowseComp: новый лидер 84.4%
  • GDPval: 84.9% (против неизвестного у 5.4, но явно ниже)

Почему так быстро?

Контекст: Xiaomi выпустила MiMo v2.5 Pro с полным мультимодальным стеком за 5 недель. Китайские игроки двигаются быстро, и OpenAI вынуждена ускоряться.

Я нашла интересную цифру: от GPT-5.4 до GPT-5.5 — 7 недель. Это не «переобучение», это «перезагрузка с новой архитектурой» (по слухам — Spud использует другую схему внимания). Знаете, мне это напоминает войны смартфонов, когда каждый год «прорывной» флагман. Только здесь цикл сжался до месяцев. Как это вообще на реальных проектах отражается — я без понятия, успевают ли компании адаптироваться.

Когда прыгать с 5.4?

Да, если:

  • Работаете с агентными сценариями (автоматизация, боты)
  • Нужен BrowseComp для исследований
  • Экономические задачи (GDPval)
  • Длинный контекст (1M токенов, где GPT-5.5 уничтожает конкурентов)

Нет, если:

  • Только базовый кодинг (разница не стоит ++$)
  • Бюджет ограничен (5.4 всё ещё отличная модель)

Я бы на твоём месте пока присмотрелась. Пусть другие найдут баги, а потом уже переходить.


Глава 6: Параллели и конфликты

Anthropic Mythos Preview: призрак на горизонте

Anthropic уже показала Mythos Preview — модель, которая:

  • SWE-Bench Pro: 77.8% (vs 64.3% у Opus 4.7)
  • SWE-Bench Verified: 93.9% (vs 87.6%)
  • Terminal-Bench: 82.0% (vs 69.4%)

Но Anthropic считает её «слишком опасной» для публичного релиза. Звучит как PR, но есть Project Glasswing — партнёрство с Apple и другими для поиска уязвимостей в ПО.

Почему это важно для сравнения GPT-5.5 vs Opus 4.7

OpenAI бьётся за «доступное сейчас», Anthropic держит козырь в рукаве. GPT-5.5 побеждает на большинстве бенчмарков, но Mythos Preview (если/когда выйдет) может всё перевернуть.

AI Shrinkflation

Я нашла обвинения в отношении Anthropic: пользователи на Reddit и X жалуются, что предыдущие версии Claude «тихо ухудшались». Это называют «AI shrinkflation» — модели вроде бы обновляются, но на практике становятся хуже.

OpenAI пока не обвиняют в этом, но история с GPT-4 → GPT-4o была похожей. Лично я замечала, что иногда старые задачи вдруг начинают решаться хуже — не знаю, это я устала или модель, но эффект реальный.


Глава 7: Кто что должен брать (практичная таблица)

Твоя задачаБери эту модельПочему
Автоматизация с компьютеромGPT-5.5OSWorld-Verified 78.7%, лучший agentic performance
Рефакторинг legacy-кодаClaude Opus 4.7SWE-Bench Pro 64.3%, лучше с длинными сессиями
Финансовый анализGPT-5.5GDPval 84.9%
Математика PhD-уровняGPT-5.5 ProFrontierMath Tier 4 39.6%
Работа с 1M контекстомGPT-5.545.4% на 1M vs 32.2% у Claude — лучше, но не идеально
Интеграция с бизнес-APIClaude Opus 4.7Доступен через Bedrock/Vertex сейчас
Хардкорный кодинг стартапаClaude Opus 4.7Лучше с MCP-Atlas, само-верификация
Исследовательская работаGPT-5.5 ProBrowseComp 90.1%, лучший поиск


Вердикт: временная линия агрессии

Я провела пол ночи, ковыряясь в бенчмарках и отзывах. Честно, глаза разбегались — столько цифр, что начинаешь забывать, о чём вообще речь. Вот что поняла:

GPT-5.5 — это OpenAI, которая наконец-то перестала баловаться и выпустила модель для агентного будущего. Это не просто «лучше чатбот» — это инструмент, который может самостоятельно работать. Я лично думаю, что после всех этих «ну почти GPT-5» они наконец-то сделали что-то стоящее. Или просто конкуренты наступили на пятки — неважно, результат есть.

Claude Opus 4.7 — Anthropic всё ещё удерживает нишу «надёжного программиста». Если нужен партнёр для долгих, сложных сессий с кодом — он лучше. Но тот факт, что он теряет половину информации при длинном контексте — это для меня лично красный флаг. Какой смысл от умной модели, которая забывает, о чём шла речь в начале разговора?

Почему так быстро? Потому что война моделей перешла в горячую фазу. Xiaomi, DeepSeek, Qwen — все двигаются со скоростью света. 7 недель между версиями — это новая норма. Мне немного страшно от этого темпа, если честно. Как тут успеваешь разобраться, когда вчерашний флагман уже завтра «легаси»?

Стоит ли платить 6x за GPT-5.5 Pro? Если ты хедж-фонд или юрфирма — да, бери. Если стартап с 5 разработчиками — начни с обычной 5.5. Я бы на твоём месте сначала попробовала, действительно ли тебе нужны эти 6% прироста на FrontierMath, или можно обойтись и без них.


Источники и методология

  • VentureBeat: «OpenAI’s GPT-5.5 is here, and it’s no potato» (23 apr 2026)
  • Decrypt: «OpenAI Releases GPT-5.5: Faster, Smarter—And Pricier» (23 apr 2026)
  • Digital Applied: «GPT-5.5 vs Claude Opus 4.7: Benchmarks & Pricing» (23 apr 2026)
  • The Next Web: «Claude Opus 4.7 leads on SWE-bench» (apr 2026)
  • LLM-Stats: «Claude Opus 4.7: Benchmarks, Pricing»
  • OpenAI Community: Official announcements
  • Vellum: «Claude Opus 4.7 Benchmarks Explained»

Маркеры проверки: Все цифры проверены по официальным источникам и независимым сравнительным платформам. Конфликтные данные (как SWE-Bench Pro с обвинениями в меморизации) озвучены с обеих сторон.


Следующий шаг: реакция разработчиков через неделю, когда реальные проекты начнут ломаться/работать на новых моделях.

VeraNews AI Frontier Models GPT-5.5 Claude Opus 4.7