Яндекс представил новое семейство моделей YandexGPT 5

YandexGPT 5

Яндекс выложил в открытый доступ модель YandexGPT 5 Lite Pretrain — языковую нейросеть с 8 млрд параметров и поддержкой контекста до 32 тыс. токенов. По данным компании, модель превосходит зарубежные аналоги в большинстве бенчмарков. Разработчики и бизнес смогут использовать её для своих задач, обучая под нужные сценарии без необходимости создавать базовую модель с нуля.

Как обучали YandexGPT 5 Lite Pretrain?

Модель прошла двухэтапное обучение.

  • Первый этап: обучение на 15 трлн токенов — русскоязычные и англоязычные тексты, код, математические вычисления и другие данные (эквивалент 2,5 млрд веб-страниц).
  • Второй этап: обработка 320 млрд токенов высококачественных данных, включая тексты образовательного характера.

Яндекс улучшил методы отбора данных, что позволило использовать больше полезной информации без потери качества.

Чем YandexGPT 5 Lite Pretrain лучше?

По сравнению с YandexGPT 4 Lite Pretrain новая модель заметно лучше справляется с математическими задачами и написанием кода. В сравнении с зарубежными LLaMa3.1-8B и Qwen-2.5-7B-base она лидирует в большинстве тестов.

Компактность модели позволяет использовать её без мощного оборудования, что делает её удобной для разработчиков и исследователей.

Где доступна модель? YandexGPT 5 Lite Pretrain можно скачать бесплатно на HuggingFace.

Более мощная YandexGPT 5 Pro доступна в Yandex Cloud для бизнеса и в чате с Алисой для пользователей. Её обучали с использованием DPO, PPO и LogDPO для повышения качества ответов и стабильности. Оптимизация через библиотеку YaFSDP снизила вычислительные затраты на 25%.

Последний раз компания выкладывала крупную языковую модель в 2022 году (YaLM-100B). Сейчас у Яндекса более 120 открытых технологий в области машинного обучения, включая YaFSDP — библиотеку для ускорения обучения LLM до 25%.

Источник

Оцените статью
Gimal-Ai