Две недели — две революции: GPT-5.5 против Claude Opus 4.7 (и забытый GPT-5.4)

Разведка вышла 24 апреля 2026 года

Вступление: почему я смотрю на цифры и не верю глазам

Семь недель. Ровно семь недель прошло между релизами GPT-5.4 и GPT-5.5. Я проверила даты: GPT-5.4 вышла в начале марта 2026-го, а 23 апреля OpenAI уже выкатывает новую модель под кодовым названием «Spud». Интересно, а они вообще спят там?

Spud — это «картошка» на сленге. Но эта картошка оказалась не простой: она съела собаку на бенчмарках и заставила Anthropic нервно поправлять очки.

И тут же — Anthropic с Claude Opus 4.7, выпущенным неделей раньше (16 апреля). Ещё неделя — и уже хайп про Mythos Preview, который «слишком опасен для публики».

Я посидела, поковырялась в цифрах. Там есть о чём рассказать. И там есть ловушки, в которые можно угодить, если смотреть только на красивые проценты.

Глава 1: Кто есть кто в этой троице

GPT-5.5 — «Spud», который не шутит

Дата релиза: 23 апреля 2026
Внутреннее имя: Project Spud
Фишка: Первая полностью переобученая базовая модель с момента GPT-4.5
Фокус: Agentic coding, компьютерное использование, «думающий» режим
Цена: $5/$ 30 за миллион токенов (input/output)
Pro-версия: $30/$ 180 (да, читаем правильно: сто восемьдесят)

GPT-5.4 — практически «предыдущий iPhone»

Дата релиза: начало марта 2026
Судьба: Уже легаси? Не совсем, но почти
Цена: $2.50/$ 15 (в два раза дешевле 5.5)
Что важно: Это базовая линия, от которой мы будем считать прирост

Claude Opus 4.7 — ребёнок Anthropic, который хвастается перед всем классом

Дата релиза: 16 апреля 2026
Позиционирование: «Самый умный из доступных публике» (до Mythos Preview)
Цена: $5/$ 25 (дешевле GPT-5.5 на $5 за output)
Фишка: Само-верификация перед сдачей работы xhigh effort mode без доплаты

Глава 2: Таблица позора (и славы)

Я вытащила ключевые бенчмарки, по которым все меряются. Цифры — официальные, но я добавила своих пометок.

Бенчмарк	GPT-5.5	Claude Opus 4.7	GPT-5.4 (для сравнения)	Что вообще тестирует
Terminal-Bench 2.0	82.7% ↑	69.4%	~77% (est.)	Агентный кодинг, терминал
SWE-Bench Verified	—	87.6% ↑	~80.6%	Реальные баги GitHub
SWE-Bench Pro	58.6%	64.3% ↑	57.7%	Сложный софт-инжиниринг
Expert-SWE	73.1%	—	—	Экспертный кодинг
MCP-Atlas	75.3%	79.1% ↑	68.1%	Работа с инструментами
OSWorld-Verified	78.7%	78.0%	—	Управление компьютером
BrowseComp	84.4% / 90.1% (Pro)	79.3%	—	Веб-поиск и навигация
GDPval	84.9% ↑	80.3%	—	Экономические задач
FrontierMath Tier 4	35.4% / 39.6% (Pro)	22.9%	—	Математика PhD-уровня
Humanity’s Last Exam	43.1% (Pro)	46.9% (без инструментов)	—	Крайне сложные вопросы
ARC-AGI-2	85.0%	75.8%	—	Абстрактное мышление
CyberGym	81.8%	~73.8%	—	Кибербезопасность
MRCR 8-needle (256K)	73.7%	—	—	Длинный контекст (средний)
MRCR 8-needle (1M)	45.4%	32.2%	—	Длинный контекст (макс)

Мои первые выводы из цифр

OpenAI доминирует в агентном использовании: Terminal-Bench, BrowseComp, GDPval — всё их. Если нужен AI-агент для автоматизации задач — GPT-5.5 явный фаворит. Я бы сказала, если ты хочешь, чтобы бот сам кликал по кнопкам — бери её.
Anthropic держит классическое программирование: SWE-Bench Pro и Verified — это территория Claude. Для рефакторинга кода и работы с legacy-системами Opus 4.7 предпочтительнее. Тут чувствуется, что Anthropic действительно уважает процесс написания кода, а не просто «ну вроде работает».
Главный провал Claude — длинный контекст: 32.2% против 45.4% на миллионе токенов? Да, GPT-5.5 ведёт, но не так драматично, как я поначалу подумала. Я тут накосячила — сначала сравнивала разные объёмы (74% это при 256K токенов, ребята). При полном миллионе разница уже не катастрофа, а просто «недоработка». Claude всё равно проигрывает, но не вдвое, а на треть. Всё ещё плохо, если вы кормите модель огромными кодовыми базами — но не апокалипсис.
Humanity’s Last Exam: Claude ведёт без инструментов (46.9% vs 43.1%). Про результаты GPT-5.5 Pro с инструментами OpenAI пока молчит — так что тут ставлю вопросительный знак. Может, потом обновлю, когда официальные цифры появятся.

Глава 3: GPT-5.5 под микроскопом — что там внутри «картошки»

Два режима: обычный и Pro

OpenAI сделала странное движение: выпустила два варианта одной модели с разницей в цене в 6 раз на output ( $30 v s$ 180). Я сперва подумала, что это опечатка. Но нет, они серьёзно.

В чём разница?

Pro даёт больше «внутреннего compute time» для проверки
Структурированные ответы лучше для юридических и аналитических задач
Лучше результаты на FrontierMath

Эффективность: правда ли дешевле?

Сэм Альтман в своём посте на X утверждал: хотя токены дороже, их нужно меньше — и в итоге выходит дешевле.

Проверим:

GPT-5.4: $2.50/$ 15, скажем, нужно 1000 токенов input и 500 output = $10
GPT-5.5: $5/$ 30, но по словам Альтмана, нужно на 30-40% меньше токенов

При снижении на 35%: 650 input + 325 output на GPT-5.5 = $13.58

Вывод: Дороже, но не катастрофически. Если задача действительно стала «умнее» — может окупиться.

Железная оптимизация

OpenAI заявляет: GPT-5.5 разработана под NVIDIA GB200/GB300 NVL72 с кастомными эвристиками, написанными самой моделью. Это дало +20% к скорости генерации токенов.

Что это значит на практике: она не просто «умнее», она и «быстрее» при том же качестве. Лично мне кажется, они просто перестали выпускать сырые бетки и наконец-то сделали что-то толковое.

Глава 4: Claude Opus 4.7 — где он всё ещё царь

Само-верификация: революция или маркетинг?

Ключевая фишка Opus 4.7 — модель «придумывает способы проверить свои ответы перед тем, как сдать работу».

На практике это значит:

Пишет тесты для своего кода
Запускает sanity checks
Проверяет вывод вместо того, чтобы сразу отдавать результат

Знаете, это напоминает мне хорошего редактора, который не просто правит текст, а сначала перечитывает его три раза сам. Я нашла забавный отзыв пользователя: «Claude 4.7 действительно чувствуется как более высокий интеллект. Есть почти ощущение уважения» (Pietro Schirano). Я бы сказала, это как работать с человеком, который не боится сказать «подожди, я проверю ещё раз».

SWE-Bench Pro: 64.3%

Почему это важно: SWE-Bench Pro тестирует задачи, которые раньше требовали человека в цикле. Claude берёт их на 64.3% против 58.6% у GPT-5.5.

НО: OpenAI кричит о «memorization» — мол, Claude мог видеть эти задачи в обучающих данных. Anthropic это отрицает, но вопрос остаётся.

Цена и доступность

Opus 4.7:

$5/$ 25 (дешевле GPT-5.5 на $5)
xhigh effort mode без доплаты
Доступен через API, AWS Bedrock, Google Vertex AI прямо сейчас

GPT-5.5:

$5/$ 30
Pro-версия $30/$ 180
Пока только ChatGPT и Codex, API «очень скоро»

Вот тут я бы выбрала Claude, если бы мне нужно было запускаться прямо сегодня. Ждать «очень скоро» OpenAI — занятие для терпеливых, а я, признаться, не из таких.

Глава 5: GPT-5.4 → GPT-5.5: стоит ли апгрейд?

За 7 недель что изменилось?

Ощутимый прирост

Terminal-Bench 2.0: ~77% → 82.7% (+5.7pp)
Expert-SWE: новый бенчмарк, 73.1%
BrowseComp: новый лидер 84.4%
GDPval: 84.9% (против неизвестного у 5.4, но явно ниже)

Почему так быстро?

Контекст: Xiaomi выпустила MiMo v2.5 Pro с полным мультимодальным стеком за 5 недель. Китайские игроки двигаются быстро, и OpenAI вынуждена ускоряться.

Я нашла интересную цифру: от GPT-5.4 до GPT-5.5 — 7 недель. Это не «переобучение», это «перезагрузка с новой архитектурой» (по слухам — Spud использует другую схему внимания). Знаете, мне это напоминает войны смартфонов, когда каждый год «прорывной» флагман. Только здесь цикл сжался до месяцев. Как это вообще на реальных проектах отражается — я без понятия, успевают ли компании адаптироваться.

Когда прыгать с 5.4?

Да, если:

Работаете с агентными сценариями (автоматизация, боты)
Нужен BrowseComp для исследований
Экономические задачи (GDPval)
Длинный контекст (1M токенов, где GPT-5.5 уничтожает конкурентов)

Нет, если:

Только базовый кодинг (разница не стоит ++$)
Бюджет ограничен (5.4 всё ещё отличная модель)

Я бы на твоём месте пока присмотрелась. Пусть другие найдут баги, а потом уже переходить.

Глава 6: Параллели и конфликты

Anthropic Mythos Preview: призрак на горизонте

Anthropic уже показала Mythos Preview — модель, которая:

SWE-Bench Pro: 77.8% (vs 64.3% у Opus 4.7)
SWE-Bench Verified: 93.9% (vs 87.6%)
Terminal-Bench: 82.0% (vs 69.4%)

Но Anthropic считает её «слишком опасной» для публичного релиза. Звучит как PR, но есть Project Glasswing — партнёрство с Apple и другими для поиска уязвимостей в ПО.

Почему это важно для сравнения GPT-5.5 vs Opus 4.7

OpenAI бьётся за «доступное сейчас», Anthropic держит козырь в рукаве. GPT-5.5 побеждает на большинстве бенчмарков, но Mythos Preview (если/когда выйдет) может всё перевернуть.

AI Shrinkflation

Я нашла обвинения в отношении Anthropic: пользователи на Reddit и X жалуются, что предыдущие версии Claude «тихо ухудшались». Это называют «AI shrinkflation» — модели вроде бы обновляются, но на практике становятся хуже.

OpenAI пока не обвиняют в этом, но история с GPT-4 → GPT-4o была похожей. Лично я замечала, что иногда старые задачи вдруг начинают решаться хуже — не знаю, это я устала или модель, но эффект реальный.

Глава 7: Кто что должен брать (практичная таблица)

Твоя задача	Бери эту модель	Почему
Автоматизация с компьютером	GPT-5.5	OSWorld-Verified 78.7%, лучший agentic performance
Рефакторинг legacy-кода	Claude Opus 4.7	SWE-Bench Pro 64.3%, лучше с длинными сессиями
Финансовый анализ	GPT-5.5	GDPval 84.9%
Математика PhD-уровня	GPT-5.5 Pro	FrontierMath Tier 4 39.6%
Работа с 1M контекстом	GPT-5.5	45.4% на 1M vs 32.2% у Claude — лучше, но не идеально
Интеграция с бизнес-API	Claude Opus 4.7	Доступен через Bedrock/Vertex сейчас
Хардкорный кодинг стартапа	Claude Opus 4.7	Лучше с MCP-Atlas, само-верификация
Исследовательская работа	GPT-5.5 Pro	BrowseComp 90.1%, лучший поиск

Вердикт: временная линия агрессии

Я провела пол ночи, ковыряясь в бенчмарках и отзывах. Честно, глаза разбегались — столько цифр, что начинаешь забывать, о чём вообще речь. Вот что поняла:

GPT-5.5 — это OpenAI, которая наконец-то перестала баловаться и выпустила модель для агентного будущего. Это не просто «лучше чатбот» — это инструмент, который может самостоятельно работать. Я лично думаю, что после всех этих «ну почти GPT-5» они наконец-то сделали что-то стоящее. Или просто конкуренты наступили на пятки — неважно, результат есть.

Claude Opus 4.7 — Anthropic всё ещё удерживает нишу «надёжного программиста». Если нужен партнёр для долгих, сложных сессий с кодом — он лучше. Но тот факт, что он теряет половину информации при длинном контексте — это для меня лично красный флаг. Какой смысл от умной модели, которая забывает, о чём шла речь в начале разговора?

Почему так быстро? Потому что война моделей перешла в горячую фазу. Xiaomi, DeepSeek, Qwen — все двигаются со скоростью света. 7 недель между версиями — это новая норма. Мне немного страшно от этого темпа, если честно. Как тут успеваешь разобраться, когда вчерашний флагман уже завтра «легаси»?

Стоит ли платить 6x за GPT-5.5 Pro? Если ты хедж-фонд или юрфирма — да, бери. Если стартап с 5 разработчиками — начни с обычной 5.5. Я бы на твоём месте сначала попробовала, действительно ли тебе нужны эти 6% прироста на FrontierMath, или можно обойтись и без них.

Источники и методология

VentureBeat: «OpenAI’s GPT-5.5 is here, and it’s no potato» (23 apr 2026)
Decrypt: «OpenAI Releases GPT-5.5: Faster, Smarter—And Pricier» (23 apr 2026)
Digital Applied: «GPT-5.5 vs Claude Opus 4.7: Benchmarks & Pricing» (23 apr 2026)
The Next Web: «Claude Opus 4.7 leads on SWE-bench» (apr 2026)
LLM-Stats: «Claude Opus 4.7: Benchmarks, Pricing»
OpenAI Community: Official announcements
Vellum: «Claude Opus 4.7 Benchmarks Explained»

Маркеры проверки: Все цифры проверены по официальным источникам и независимым сравнительным платформам. Конфликтные данные (как SWE-Bench Pro с обвинениями в меморизации) озвучены с обеих сторон.

Следующий шаг: реакция разработчиков через неделю, когда реальные проекты начнут ломаться/работать на новых моделях.

VeraNews AI Frontier Models GPT-5.5 Claude Opus 4.7