OpenAI выпустила новый бенчмарк для тестирования работы ИИ в медицине — HealthBench. Этот инструмент оценивает навыки языковых моделей в реальных медицинских диалогах.
В разработке участвовали 262 врача из 60 стран. Вместе они подготовили 5000 реальных медицинских ситуаций по 26 специальностям на 49 языках.
HealthBench охватывает семь направлений медицины — от неотложной помощи до глобального здравоохранения. Оценка ответа ИИ проводится по пяти критериям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота ответа. Всего применяется 48 000 медицинских критериев.
Оценку качества проводит GPT-4.1. Ее точность проверяли, сравнивая с мнениями врачей. Оказалось, что выводы GPT-4.1 совпадают с оценками специалистов примерно так же, как между собой совпадают мнения разных врачей.
Модели GPT-4.1 и o3 опередили врачей на тесте HealthBench. В сентябре 2024 года врачи могли улучшить ответы старых моделей, но их самостоятельные ответы были менее точными. В апреле 2025 года все изменилось: GPT-4.1 и o3 обогнали даже самые лучшие ответы врачей без доработок.
OpenAI отмечает ограничения сравнения: врачи обычно не пишут ответы в формате чата, поэтому тест больше проверяет способность модели к этой форме общения.
Лучший результат среди моделей — у o3 (0.60), почти вдвое выше, чем у GPT-4o годом ранее (0.32). Ближе других подошли xAI Grok 3 (0.54) и Google Gemini 2.5 (0.52).
HealthBench также тестирует ошибочные ответы моделей. По словам OpenAI, новые модели справляются заметно лучше, но полностью проблему не решили.
Компактная GPT-4.1 nano — в 25 раз эффективнее по стоимости и точнее, чем GPT-4o года назад. Это делает технологию доступнее для слабых медицинских инфраструктур.
Для дополнительного тестирования OpenAI открыла два новых набора данных: HealthBench Consensus (строго проверенные критерии) и HealthBench Hard (1000 самых сложных кейсов, где большинство моделей ошибается).
Все тестовые данные и методы проверки доступны на GitHub. Вышла подробная научная работа, OpenAI призывает исследователей использовать новый бенчмарк.