Сначала новость, от которой хочется прищуриться

В Harvard сделали исследование, и там ИИ внезапно показал себя лучше двух врачей в задачах первичной диагностики в неотложке. Я, честно, на таких заголовках обычно сразу слегка морщусь: ну да, сейчас опять будет “машина всех победила”, а потом выяснится, что сравнивали яблоки с табуретками.

Но тут как раз не хочется отмахиваться. Потому что речь не про игрушечный тест и не про абстрактный бенчмарк, а про реальные случаи из emergency room — то есть из приёмного отделения, где пациента надо быстро оценить, понять, насколько всё срочно, и не пропустить опасное состояние. Для обычного человека это важно очень просто: в неотложке ценится не “угадать красивый итоговый диагноз”, а быстро отсеять то, что может убить.

Исследование вышло в Science, а делали его команда Harvard Medical School и Beth Israel Deaconess Medical Center. То есть это не пресс-релиз стартапа, который хочет продать вам “революцию”, а академическая работа. Уже неплохо. Но я всё равно полезла смотреть, где тут польза, а где — ну, давайте честно — красивый повод для заголовка.

Что именно они сравнивали

Если по-человечески, исследователи взяли 76 случаев из emergency room Beth Israel и посмотрели, как с ними справятся модели OpenAI — o1 и 4o — и два врача internal medicine attending physicians.

Вот тут маленькая, но важная деталь. Internal medicine physicians — это врачи внутренней медицины, не врачи неотложки. А emergency medicine — это отдельная специальность, у неё свой взгляд на пациента, свой темп, свои приоритеты. И вот это, простите, уже не мелочь, а почти весь смысл сравнения. Я бы даже сказала: подождите, а это вообще нормально — делать громкий вывод про ER, сравнивая не с ER-врачами? Ну, мягко говоря, вопросики есть.

Оценивали ответы вслепую два других attending physicians — то есть старшие врачи, которые не знали, где ответ человека, а где ответ ИИ. Это важная вещь: так уменьшается эффект “ну я же и так знаю, кто тут машина”.

И что получилось? В triage — это самая первая сортировка пациента, когда информации мало, а решение нужно срочно — o1 попал в exact или close diagnosis в 67% случаев. У двух врачей было 55% и 50%.

ИИ правда так хорош? Тут я бы не спешила хлопать в ладоши

На бумаге это выглядит почти дерзко. Модель получает только текстовую информацию из электронных медкарт, без магии, без снимков, без прослушивания сердца и без той самой врачебной интуиции, которую любят описывать как нечто мистическое. И на этом этапе она не хуже, а местами лучше.

Но сами авторы исследования очень аккуратно говорят: это не доказательство, что ИИ готов к реальной практике. Нужны prospective trials — по-русски это проспективные испытания, то есть проверка уже в настоящем потоке пациентов, а не задним числом на собранных кейсах.

И вот тут я прямо выдохнула: спасибо, что хотя бы кто-то в этом разговоре не начал сразу продавать “автономную медицину будущего”.

Потому что retrospective тест — это когда вы берёте старые случаи и прогоняете их через систему. Это полезно, но это ещё не жизнь. В жизни всё грязнее: неполная информация, спешка, шум, нестандартные симптомы, очереди, перегруженный персонал, нервные пациенты и та самая деталь, которую в базе данных никто не записал, а она оказалась решающей.

Где тут реальная польза, а где маркетинговый блеск

Польза, как мне кажется, есть. И вполне конкретная.

Если ИИ и правда может быть сильным помощником в triage, это может помочь больницам быстрее сортировать потоки, подсвечивать опасные варианты и не терять время на очевидно неверные направления. Особенно там, где врачей не хватает, а людей — слишком много.

Но маркетинговый блеск начинается там, где из этого делают вывод “ну вот, ИИ уже лучше врача”. Не-а. Не лучше врача вообще. Не лучше всей клинической реальности. И даже не лучше нужной специальности в этом конкретном контексте. Это важно.

Ещё одна неприятная, но очень человеческая вещь: сейчас, по словам одного из авторов, нет формального framework for accountability — то есть нет нормальной системы, которая бы чётко отвечала на вопрос, кто виноват, если ИИ ошибся. Вот это, извините, не второстепенная юридическая деталь, а почти центральный вопрос.

Потому что в неотложке ошибка — это не “ой, модель немного сбилась”. Это может быть упущенный инфаркт, инсульт, сепсис или ещё что-то, где минуты решают всё. И пациенту, вообще-то, не очень важно, насколько эффектно алгоритм звучал на презентации.

Что это значит для больниц и пациентов

Для больниц вывод пока очень приземлённый: если вы думаете о triage-инструментах на базе LLM, не надо радоваться раньше времени. Нужны не красивые пилоты, а нормальная проверка в живой системе, сравнение с правильной специальностью и понятная ответственность.

Для пациентов это тоже не абстрактная история. Если ИИ начнут использовать как вспомогательный слой в приёмном отделении, важно понимать: он должен помогать врачу быстрее заметить риск, а не подменять собой клиническое решение. И уж точно не превращаться в очередную “умную кнопку”, за которую потом никто не отвечает.

Меня в таких историях особенно цепляет вот что: технологии любят говорить языком точности, а медицина живёт языком последствий. И это совсем не одно и то же. Можно быть очень точным на тесте и всё равно оказаться неготовым к реальному человеку, который пришёл в больницу не за статистикой, а за тем, чтобы его не пропустили через опасность.

Ну и что в сухом остатке

Сухой остаток такой: да, исследование выглядит сильным и местами правда впечатляющим. Да, ИИ уже умеет быть очень убедительным в клиническом тексте. Но нет, это не доказательство, что его можно спокойно ставить на вход в emergency room и отпускать в свободное плавание.

И, честно говоря, хорошо, что авторы сами это проговорили. Потому что в медицине особенно вредно делать вид, что “если модель не хуже на бумаге, значит можно запускать завтра”. Ну серьёзно, не в магазин же за хлебом идём.

Пока это скорее сигнал: у LLM есть потенциал в первичной оценке пациента, но между потенциалом и безопасной практикой стоит целая гора — испытания, ответственность, нужная специальность, правила применения. И вот эта гора, увы, никуда не делась.

Материалы