OpenAI представила HealthBench — бенчмарк для оценки ИИ в медицинских диалогах

OpenAI выпустила новый бенчмарк для тестирования работы ИИ в медицине — HealthBench. Этот инструмент оценивает навыки языковых моделей в реальных медицинских диалогах.

В разработке участвовали 262 врача из 60 стран. Вместе они подготовили 5000 реальных медицинских ситуаций по 26 специальностям на 49 языках.

HealthBench охватывает семь направлений медицины — от неотложной помощи до глобального здравоохранения. Оценка ответа ИИ проводится по пяти критериям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота ответа. Всего применяется 48 000 медицинских критериев.

Оценку качества проводит GPT-4.1. Ее точность проверяли, сравнивая с мнениями врачей. Оказалось, что выводы GPT-4.1 совпадают с оценками специалистов примерно так же, как между собой совпадают мнения разных врачей.

Модели GPT-4.1 и o3 опередили врачей на тесте HealthBench. В сентябре 2024 года врачи могли улучшить ответы старых моделей, но их самостоятельные ответы были менее точными. В апреле 2025 года все изменилось: GPT-4.1 и o3 обогнали даже самые лучшие ответы врачей без доработок.

OpenAI отмечает ограничения сравнения: врачи обычно не пишут ответы в формате чата, поэтому тест больше проверяет способность модели к этой форме общения.

Лучший результат среди моделей — у o3 (0.60), почти вдвое выше, чем у GPT-4o годом ранее (0.32). Ближе других подошли xAI Grok 3 (0.54) и Google Gemini 2.5 (0.52).

HealthBench также тестирует ошибочные ответы моделей. По словам OpenAI, новые модели справляются заметно лучше, но полностью проблему не решили.

Компактная GPT-4.1 nano — в 25 раз эффективнее по стоимости и точнее, чем GPT-4o года назад. Это делает технологию доступнее для слабых медицинских инфраструктур.

Для дополнительного тестирования OpenAI открыла два новых набора данных: HealthBench Consensus (строго проверенные критерии) и HealthBench Hard (1000 самых сложных кейсов, где большинство моделей ошибается).

Все тестовые данные и методы проверки доступны на GitHub. Вышла подробная научная работа, OpenAI призывает исследователей использовать новый бенчмарк.

Источник

Оцените статью
Gimal-Ai