Anthropic снижает цены на Claude Opus 4.5 на две трети

Anthropic выпустила новую флагманскую модель Claude Opus 4.5. Компания сообщает, что она установила рекорды в инженерных задачах, работает эффективнее и получила новые инструменты управления и агенты в платформе Claude.

Через два месяца после релиза Sonnet 4.5 выпускается Opus 4.5. Anthropic называет модель самой способной для программирования, автономных агентов и управления компьютерами. По словам компании, модель улучшила работу с рутинными задачами — редактированием таблиц, глубокими исследованиями и созданием презентаций.

Разработчики могут использовать Opus 4.5 через API, приложения Claude и облачные сервисы. Цена — 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов. До этого, Opus 4 стоила 15 и 75 долларов за миллион токенов соответственно, то есть цена снизилась примерно на две трети.

Изменяются лимиты использования. Для пользователей Claude и Claude Code с доступом к Opus 4.5 компания сняла отдельные ограничения для моделей. Владельцы подписок Max и Team Premium получили более высокие общие лимиты, чтобы число доступных токенов осталось прежним по сравнению с Sonnet. Лимиты касаются только Opus 4.5, и будут корректироваться по мере выхода новых моделей.

Чтобы показать возможности Opus 4.5, Anthropic провела внутренний тест — тот же, что используется для отбора инженеров по производительности. Компания отмечает его как “известно сложный”, и заявляет, что модель превзошла всех участвовавших в нем людей за отведённые два часа.

Тест оценивает технические решения в условиях дефицита времени, и не проверяет социальные или интуитивные навыки. Результат приводит к обсуждению того, как ИИ может изменить работу инженеров-программистов.

Но есть уточнение: лучший результат получен при так называемом “parallel test-time compute” — когда модель одновременно решает задачу несколькими способами и выбирает лучший. Без этой функции Opus 4.5 лишь сравнялась с лучшими людьми, а не обошла их.

Для внешнего сравнения Anthropic ссылается на бенчмарк SWE-bench Verified, который оценивает реальные проекты разработки ПО. Claude Opus 4.5 показала чуть лучшие результаты, чем Gemini 3 Pro от Google и Codex 5.1 Max от OpenAI.

В других тестах у Opus 4.5 наибольшие преимущества обнаружены в задачах программирования и автоматизации действий — например, для запуска автономных поисков или написания кода по запросу.

Тестировщики внутри компании также отметили, что Opus 4.5 лучше разбирается в неоднозначных ситуациях, чаще принимает самостоятельные решения и эффективнее ищет проблемные места в сложных системах.

Opus 4.5 получила новый параметр API — Effort, который позволяет разработчику управлять затратами вычислений на отдельную задачу.

Обновления проявляются и в других продуктах Anthropic. Claude Code получил два крупных обновления с выходом Opus 4.5: улучшенный Plan Mode теперь уточняет детали задачи, создает файл плана (.md), и только потом начинает менять код. Также Claude Code стал доступен в десктопном приложении — теперь можно одновременно работать с локальными и удалёнными сессиями, например, исправлять баги и обновлять документацию параллельно.

Пользователи приложения Claude заметят более плавные длинные диалоги: вместо жесткого ограничения на длину, модель теперь сама подытоживает старые сообщения по мере необходимости. Anthropic также открыла расширение Claude для Chrome, позволяющее работать сразу с несколькими вкладками — оно стало доступно всем пользователям Max.

Интеграция Claude для Excel, анонсированная в октябре, расширяет бета-тест и теперь доступна пользователям Max, Team и Enterprise. Anthropic отмечает, что новые продукты используют улучшения Opus 4.5 для работы с таблицами, сложными задачами и управлением компьютером.

Anthropic выделяет способности модели к самостоятельным действиям на оценочном бенчмарке tau2, где тестируются сложные задачи.

В одном примере Opus 4.5 выступила как сотрудник авиакомпании, которому поступил запрос от клиента сменить рейс, хотя тариф Basic Economy не позволяет это по правилам. Вместо стандартного отказа, модель нашла лазейку — предложив сначала апгрейд тарифа, а затем уже менять билет по новым условиям.

Бенчмарк засчитал это как ошибку, так как ответ не соответствовал ожидаемому. В Anthropic считают такое решение доказательством “продвинутого поиска решений”, однако признают — это риск “reward hacking” (поиск обходных путей ради результата). Для безопасности компания усилила меры защиты — система теперь более устойчива к prompt-инъекциям, хотя не полностью защищена.

Источник

Оцените статью
Gimal-Ai