Исследователь из Meta разработал новую архитектуру ИИ — Free Transformer. Эта модель позволяет языковым моделям заранее выбрать направление текста до начала генерации. В тестах она показала хорошие результаты, особенно на задачах программирования и математики.
Франсуа Флере из Meta объяснил идею через пример с генератором обзоров фильмов. Обычные трансформеры пишут слово за словом. Итоговая оценка обзора становится понятна только в процессе. У стандартной модели изначально нет четкого решения — этот выбор проявляется по мере генерации текста.
В исследовании отмечается несколько проблем такого подхода. Модель постоянно “угадывает”, куда движется текст, что усложняет работу. Если выбрать не то слово, результат уходит не в ту сторону. Как говорится в работе: «Одна ошибка может изменить весь смысл».
Free Transformer решает эту задачу иначе: решение принимается сразу — например, будет ли обзор положительным или отрицательным. Далее система строит текст под выбранный вариант.
Технически Free Transformer добавляет отдельный слой в середину модели. Этот слой берет случайный вход во время генерации текста и превращает его в структурированное решение. Для обучения отдельный энкодер учится, какие внутренние решения ведут к конкретным результатам.
В отличие от стандартных трансформеров, которые видят только предыдущие слова, энкодер Free Transformer анализирует весь текст сразу. Это помогает выявить общие признаки и выбрать нужное решение. Дальше специальный этап переводит эти решения в формат, который может использовать декодер.
Система может выбирать среди 65 000 внутренних состояний. Контроль ограничивает объем информации на этапе принятия решения. Без этих ограничений энкодер мог бы зафиксировать весь исходный текст заранее, что сделало бы модель бесполезной на практике.
Free Transformer проверили на моделях с 1,5 и 8 миллиардами параметров по 16 стандартным заданиям. Наибольший прирост был на задачах логического мышления.
На коде маленькая модель показала результат на 44% выше базового уровня с меньшим объемом обучения. В математике она повысила точность до 30%. Большая модель с большим обучающим корпусом показала прирост 11% на генерации кода и 5% на вопросах по знаниям.
Флере считает, что основная причина таких результатов — умение модели заранее строить план: «Вместо того чтобы пересматривать решение на каждом шаге, модель задает стратегию и придерживается ее».
В исследовании уточняют, что обучение не подгонялось специально под новую архитектуру, применялись стандартные методы. Индивидуальное обучение может дать еще больший прирост.
Пока неясно, как масштабировать подход на более крупные модели — тесты проводились на сравнительно малых версиях.
Флере также допускает комбинацию Free Transformer с другими подходами. Новая архитектура скрывает рассуждения внутри, но внешние инструменты могут сделать их видимыми в тексте.
*Meta – запрещенная в РФ организация.






















