Яндекс выложил в открытый доступ модель YandexGPT 5 Lite Pretrain — языковую нейросеть с 8 млрд параметров и поддержкой контекста до 32 тыс. токенов. По данным компании, модель превосходит зарубежные аналоги в большинстве бенчмарков. Разработчики и бизнес смогут использовать её для своих задач, обучая под нужные сценарии без необходимости создавать базовую модель с нуля.
Как обучали YandexGPT 5 Lite Pretrain?
Модель прошла двухэтапное обучение.
- Первый этап: обучение на 15 трлн токенов — русскоязычные и англоязычные тексты, код, математические вычисления и другие данные (эквивалент 2,5 млрд веб-страниц).
- Второй этап: обработка 320 млрд токенов высококачественных данных, включая тексты образовательного характера.
Яндекс улучшил методы отбора данных, что позволило использовать больше полезной информации без потери качества.
Чем YandexGPT 5 Lite Pretrain лучше?
По сравнению с YandexGPT 4 Lite Pretrain новая модель заметно лучше справляется с математическими задачами и написанием кода. В сравнении с зарубежными LLaMa3.1-8B и Qwen-2.5-7B-base она лидирует в большинстве тестов.
Компактность модели позволяет использовать её без мощного оборудования, что делает её удобной для разработчиков и исследователей.
Где доступна модель? YandexGPT 5 Lite Pretrain можно скачать бесплатно на HuggingFace.
Более мощная YandexGPT 5 Pro доступна в Yandex Cloud для бизнеса и в чате с Алисой для пользователей. Её обучали с использованием DPO, PPO и LogDPO для повышения качества ответов и стабильности. Оптимизация через библиотеку YaFSDP снизила вычислительные затраты на 25%.
Последний раз компания выкладывала крупную языковую модель в 2022 году (YaLM-100B). Сейчас у Яндекса более 120 открытых технологий в области машинного обучения, включая YaFSDP — библиотеку для ускорения обучения LLM до 25%.