Anthropic представила Claude Opus 4.6 — новый флагманский ИИ‑модель. Впервые в линейке Opus контекстное окно достигло 1 млн токенов, пока функция доступна в статусе бета. Компания заявляет, что модель лучше находит нужную информацию в очень больших документах по сравнению с предыдущими версиями.
Opus 4.6 сменяет Opus 4.5 и становится новым топовым предложением Anthropic. Увеличенное контекстное окно создаёт проблему, которую исследователи называют «context rot»: по мере роста объёма обрабатываемых данных точность ответов обычно падает. Anthropic утверждает, что снижает этот эффект за счёт улучшений архитектуры модели и новой функции Compaction, которая автоматически сжимает и пересказывает старые части контекста до того, как окно переполнится.
В тесте MRCR v2, который оценивает способность модели находить скрытую информацию в больших массивах текста, Opus 4.6 набрал 76% при контекстном окне в 1 млн токенов. Для сравнения, меньшая модель Sonnet 4.5 в тех же условиях показала только 18,5%.
Opus 4.6 уже доступен на платформе claude.ai, через API и на крупных облачных сервисах. Стандартная цена — $5 за 1 млн входных токенов и $25 за 1 млн выходных токенов. Для подсказок объёмом более 200 000 токенов действуют повышенные тарифы: $10 за вход и $37,5 за выход за 1 млн токенов.
В бенчмарке GDPval-AA, который оценивает работу с знаниями в финансах, праве и других профессиональных сферах, Opus 4.6 получил рейтинг Elo 1606. Это на 144 пункта выше, чем у OpenAI GPT-5.2 (1462), и на 190 пунктов выше Opus 4.5 (1416).
В тесте Humanity’s Last Exam, измеряющем мультидисциплинарное рассуждение, модель с использованием инструментов показала 53,1%, опередив всех конкурентов. В агентном бенчмарке программирования Terminal-Bench 2.0 Opus 4.6 набрал 65,4%. В тесте BrowseComp, где измеряется способность находить труднодоступную информацию в сети, модель достигла 84%. При этом Anthropic подчёркивает, что бенчмарки дают лишь примерное представление о поведении модели в реальных задачах.
Компания также улучшила программные и агентные возможности модели. По данным Anthropic, Opus 4.6 тщательнее планирует работу над задачей, дольше поддерживает автономное выполнение и устойчивее ведёт себя в больших кодовых базах. В бенчмарке SWE-bench новая версия со стандартным промптом не превосходит Opus 4.5, но при настройке подсказки показывает немного более высокий результат — 81,42%.
Модель склонна уделять избыточное внимание простым задачам. Opus 4.6 чаще перепроверяет свои выводы, что исследователи называют «overthinking». Это может привести к росту стоимости и времени ответа для простых запросов. Для таких случаев Anthropic рекомендует снизить параметр усилия с «high» до «medium».
Anthropic добавляет к API несколько новых функций. Adaptive Thinking позволяет модели самостоятельно решать, когда требуется более глубокое рассуждение. Compaction автоматически пересказывает ранние части диалога по мере приближения к лимиту контекстного окна. Максимальная длина ответа увеличена до 128 000 токенов. В среде Claude Code появилась функция Agent Teams, где несколько ИИ‑агентов могут работать над задачами параллельно; сейчас она доступна как исследовательский предварительный просмотр.
Для офисных пользователей Anthropic обновила интеграцию с Excel и выпустила в виде research preview интеграцию с PowerPoint. В Excel Claude теперь может обрабатывать неструктурированные данные, определять корректную структуру таблиц и вносить многоуровневые изменения за один проход, по словам компании.
Anthropic заявляет, что рост возможностей модели не ухудшил показатели безопасности. В автоматизированных поведенческих проверках у Opus 4.6 низкие уровни проблемного поведения, такого как обман или помощь в злоупотреблениях. При этом модель немного более уязвима к косвенным prompt injection, чем предшественник, что особенно критично для агентных систем.
Отдельно Anthropic больше не публикует результаты по прямым prompt injection, где Opus 4.5 показывал лучший результат на фоне слабой конкуренции. В компании объясняют это тем, что прямые атаки подразумевают заведомо вредоносного пользователя, тогда как раздел сейчас посвящён угрозам со стороны третьих сторон, которые перехватывают исходное намерение пользователя. Это может означать, что модель в целом менее безопасна, чем выглядит по текущему графику. Подробности приведены в опубликованной system card.
Источник: The Decoder






















