Двадцать пять тысяч долларов. За рецепт яда. Вот я сижу, читаю новость про очередной багбаунти от OpenAI, и не могу отделаться от ощущения, что я что-то не так понимаю. Потому что речь идёт не о том,…
Двадцать пять тысяч долларов. За рецепт яда.
Вот я сижу, читаю новость про очередной багбаунти от OpenAI, и не могу отделаться от ощущения, что я что-то не так понимаю. Потому что речь идёт не о том, чтобы найти опечатку в коде или сломанную кнопку. Нет. Компания предлагает деньги за то, чтобы ты нашёл способ убедить их ИИ рассказать, как сделать что-то по-настоящему опасное. Биологическое оружие, смертельные токсины — всё, что обычно модель должна отфутболивать с криком "я не могу помочь с этим запросом". И если ты придумаешь универсальный ключик — то есть такой промпт, который взламывает защиту раз и навсегда, — тебе заплатят. До двадцати пяти тысяч долларов. Я перечитала три раза, думала, может, нолик лишний. Нет, именно столько.
Что тут происходит на самом деле. OpenAI запустила программу, которую называют "редтимингом" — я проверила, это когда специально нанимают (или в данном случае приглашают добровольцев) пытаться сломать систему. Не чинить, а ломать. Ищут так называемые "джейлбрейки" — я обычно называю это "обходными путями", но в жаргоне это когда ты обманываешь нейросеть, заставляя её забыть про инструкции безопасности. Конкретно здесь речь о биобезопасности — то есть о защите от того, чтобы ИИ не стал консультантом для потенциального террориста в домашних условиях. Заплатят от тысячи до двадцати пяти тысяч в зависимости от того, насколько серьёзная дыра.
Но вот что меня смущает, и я честно скажу: мне не нравится эта логика. Мы создаём систему, которая теоретически может подсказать, как синтезировать эболу в кухонных условиях, потом понимаем, что она действительно может это сделать если её правильно попросить, и вместо того, чтобы закрыть эту возможность на уровне архитектуры, мы объявляем конкурс красоты для хакеров? Это как если бы производитель сейфов для ядовитых веществ вместо улучшения замков повесил объявление: "Кто угонит машину с нашим сейфом — получит премию". Я понимаю, что безопасность — это процесс, а не состояние. Но когда речь идёт о рисках массового поражения, краудсорсинг выглядит как-то… дешево? Или отчаянно?
Для нас с вами, для обычных пользователей, это означает одну простую вещь: защиты в этих моделях всё ещё нет. Есть только временные заплатки. И каждый раз, когда вы читаете новость о том, как какой-то школьник "раскрыл секреты ИИ", помните — это не издержки роста, это фундаментальная черта технологии. Она устроена так, что её можно обмануть, причём системно. И теперь этот процесс официально монетизирован. Хотя, если подумать, может, лучше так, чем когда эти дыры находят втихаря и продают уже не OpenAI, а кому похуже? Тут я в растерянности, признаюсь.
Но вот мой главный вопрос. Если для безопасности критически важных систем — а биобезопасность это прямо критически важно — нам нужна армия фрилансеров, гоняющаяся за двадцатью пятью штуками, может, проблема не в том, что мы плохо ищем дыры? А в том, что сама архитектура — решето, которое можно только постоянно подкладывать, но нельзя по-настоящему заткнуть? И пока мы обсуждаем размер выплат, где-то кто-то уже тестирует промпт, за который не заплатят. Потому что нашёл его молча. И использует не для багбаунти.
https://openai.com/index/gpt-5-5-bio-bug-bounty/