ИИ Veo-3 генерирует фейковые хирургические видео

Исследователи протестировали новую видеомодель Google Veo-3 на реальных записях операций и выяснили, что система может создавать правдоподобные изображения, но не понимает сути медицинских процедур.

Модели Veo-3 дали одно изображение операции и попросили предсказать, что произойдет в течение следующих восьми секунд. Для проверки работы создали набор SurgVeo из 50 видео реальных операций на животе и мозге.

Четыре опытных хирурга оценивали ролики ИИ по четырём критериям: внешний вид, работа инструментов, реакция тканей и медицинская логика действий.

Сначала видео казались «шокирующе чёткими», но при внимательном просмотре содержание не соответствовало реальности. По визуальной правдоподобности в абдоминальных операциях Veo-3 набрала 3,72 из 5. При проверке на точность система сильно провалилась.

Для операций на животе обработка инструментов получила 1,78, реакция тканей — 1,64, а логика действий — только 1,61. Видео выглядели реалистично, но не повторяли настоящие шаги хирурга.

В задачах по мозгу ситуация была хуже. Уже на первой секунде Veo-3 плохо справлялась с точной работой. Управление инструментами тут оценили в 2,77 балла, а медицинская логика упала до 1,13 за восемь секунд.

Исследователи разбили ошибки на категории. Больше 93% ошибок связаны с медицинской логикой: AI придумывал несуществующие инструменты, невозможные реакции тканей или бессмысленные действия. Проблемы с изображением составили только 6,2% случаев для живота и 2,8% — для мозга.

Разработчики давали Veo-3 дополнительную информацию: вид операции и фазу процедуры. Это не дало существенных улучшений. По словам команды, основная причина — неспособность модели анализировать и понимать медицинский контекст.

Исследование SurgVeo показало, как далеки современные видео-ИИ от настоящего понимания медицины. Такие системы пока умеют только создавать красивые ролики, но не могут принимать безопасные решения.

Ученые опубликуют SurgVeo на GitHub и приглашают других тестировать свои модели.

В отчете отмечают опасность использования подобных ИИ-видео для медицинского обучения. В отличие от подхода Nvidia, где AI-видео обучают роботов базовым задачам, в медицине ошибки ИИ-процедур могут привести к неправильным навыкам у врачей или роботов.

Результаты подчёркивают, что сегодняшние видео-ИИ только имитируют внешний вид действий, но не понимают физику и анатомию. Поэтому их видео могут выглядеть правдоподобно, но не отображают реальную логику операций.

В то же время текстовые ИИ уже показывают заметный прогресс в медицине. В одной из работ система Microsoft “MAI Diagnostic Orchestrator” показала точность в диагностике в четыре раза выше, чем у опытных терапевтов, хотя у исследования были и ограничения.

Источник

Оцените статью
Gimal-Ai