OpenAI запустила Reinforcement Fine-Tuning (RFT) для моделей o4-mini, чтобы компании могли дообучать языковые модели под свои задачи. RFT позволяет гибко настраивать поведение модели с помощью программируемой системы оценивания ответов.
Суть RFT:
- Подходит для сфер, где важна точность и безопасность (юридические, финансовые, сфера безопасности).
- Модель учится настраивать ответы, ориентируясь не на фиксированную “правильную” реакцию, а на оценку специального “оценщика”. Его можно запрограммировать под свои критерии (например, стиль, точность, безопасность).
- Можно использовать сразу несколько оценщиков для сложных задач.
Процесс дообучения включает 5 шагов:
- Создание оценщика с нужными критериями.
- Загрузка обучающих и валидационных данных.
- Запуск дообучения.
- Модель генерирует несколько вариантов ответа, каждый из которых оценивается автоматически.
- Алгоритм усиливает те варианты, что набирают больше баллов.
OpenAI показала пример работы: RFT учит модель оценивать соблюдение внутренних правил компании по безопасности, формируя структурированный JSON-ответ с двумя полями — “соответствует ли политикам” и пояснение. Оценщик ставит баллы отдельно за оба пункта. Данные для обучения должны быть в формате JSONL.
Процесс полностью интегрирован с инструментами оценки OpenAI. RFT доступен для проверенных компаний уже сейчас.
Также теперь доступен контролируемый дообучающий режим для GPT-4.1 nano, самой быстрой и экономичной версии GPT-4. Этот вариант позволяет обучать на классических парах “вход — ответ”.
Компании, которые делятся своими данными для дообучения, получают скидку 50%. Результаты доступны через обычный API OpenAI.
Ранее OpenAI запускала RFT как эксперимент в декабре 2024 года. Исследователь OpenAI Рохан Пандей отметил: “RFT может быть особенно полезен для нишевых стартапов, которые обучают агентов на ограниченных наборах данных.”