Компания Deep Cogito представила серию больших языковых моделей Cogito размером 3B, 8B, 14B, 32B и 70B. Все модели распространяются по открытой лицензии и обгоняют аналогичные по размеру LLaMA, DeepSeek и Qwen. По заявлениям разработчиков, Cogito 70B превосходит даже недавно вышедшую Llama 4 MoE 109B.
Модели обучены с помощью подхода Iterated Distillation and Amplification (IDA) — это стратегия выравнивания, основанная на итеративном самоулучшении. IDA сочетает усиление вычислений и последующую дистилляцию результатов обратно в параметры модели. Такой цикл повторяется, повышая уровень «интеллекта» модели без ограничения возможностями человека-наставника.
Каждая модель Cogito может работать в двух режимах — стандартном (прямой ответ) и в режиме саморефлексии, как это делают reasoning-модели. Они оптимизированы для задач кодирования, работы с функциями и агентного поведения.
Разработчики утверждают, что обучение Cogito 70B заняло всего 75 дней, а результат оказался лучше, чем у Llama 3.3 70B (дистиллированной с Llama 3 405B) и Llama 4 Scout 109B (дистиллированной с Llama 4 Behemoth 2T).
В ближайшие недели и месяцы планируется выпуск моделей еще большего размера — 109B, 400B и 671B, а также обновленные чекпойнты для уже выпущенных моделей. Скачать их можно через Huggingface или Ollama, а использовать — через API Fireworks AI и Together AI.
По словам команды Deep Cogito, цель — построить путь к общей сверхинтеллектуальной системе, а IDA может стать основой такого подхода. Они обещают выпуск всех моделей в открытом доступе.
“Мы создаем общую сверхинтеллектуальную систему. Для этого нужны научные прорывы — такие как развитое мышление и самообучение”, — говорят в Deep Cogito.