Claude Opus 4.5 от Anthropic решает задачи до пяти часов

Исследовательская организация METR опубликовала новые результаты для модели Claude Opus 4.5. Последняя версия ИИ от Anthropic показала рекордный результат — 50-процентный временной горизонт составил около 4 часов 49 минут. Этот показатель отражает, насколько продолжительной может быть задача, которую модель способна решить с заданной вероятностью успеха (в данном случае 50 процентов).

Разница между уровнями сложности заметна. На уровне успешности 80 процентов временной горизонт сокращается до 27 минут, это примерно столько же, сколько у предыдущих моделей. Лучшие показатели Opus 4.5 проявляются на длинных заданиях.

Теоретический максимум свыше 20 часов, вероятно, связан с небольшим объемом тестовых данных, отметили в METR: «Это, скорее всего, шум от ограниченного числа тестов».

Тест METR тоже не идеален — он включает только 14 примеров задач. Подробнее о слабых местах теста рассказал Шашват Гоэл.

Источник

Оцените статью
Gimal-Ai