OpenAI расширяет способы дообучения моделей o4-mini: представлен Reinforcement Fine-Tuning и поддержка GPT-4.1 nano

OpenAI запустила Reinforcement Fine-Tuning (RFT) для моделей o4-mini, чтобы компании могли дообучать языковые модели под свои задачи. RFT позволяет гибко настраивать поведение модели с помощью программируемой системы оценивания ответов.

Суть RFT:

  • Подходит для сфер, где важна точность и безопасность (юридические, финансовые, сфера безопасности).
  • Модель учится настраивать ответы, ориентируясь не на фиксированную “правильную” реакцию, а на оценку специального “оценщика”. Его можно запрограммировать под свои критерии (например, стиль, точность, безопасность).
  • Можно использовать сразу несколько оценщиков для сложных задач.

Процесс дообучения включает 5 шагов:

  1. Создание оценщика с нужными критериями.
  2. Загрузка обучающих и валидационных данных.
  3. Запуск дообучения.
  4. Модель генерирует несколько вариантов ответа, каждый из которых оценивается автоматически.
  5. Алгоритм усиливает те варианты, что набирают больше баллов.

OpenAI показала пример работы: RFT учит модель оценивать соблюдение внутренних правил компании по безопасности, формируя структурированный JSON-ответ с двумя полями — “соответствует ли политикам” и пояснение. Оценщик ставит баллы отдельно за оба пункта. Данные для обучения должны быть в формате JSONL.

Процесс полностью интегрирован с инструментами оценки OpenAI. RFT доступен для проверенных компаний уже сейчас.

Также теперь доступен контролируемый дообучающий режим для GPT-4.1 nano, самой быстрой и экономичной версии GPT-4. Этот вариант позволяет обучать на классических парах “вход — ответ”.

Компании, которые делятся своими данными для дообучения, получают скидку 50%. Результаты доступны через обычный API OpenAI.

Ранее OpenAI запускала RFT как эксперимент в декабре 2024 года. Исследователь OpenAI Рохан Пандей отметил: “RFT может быть особенно полезен для нишевых стартапов, которые обучают агентов на ограниченных наборах данных.”

Источник

Оцените статью
Gimal-Ai