Эксперимент Othello подтвердил world model гипотезу для LLM

Исследователи из Копенгагенского университета проверили гипотезу “Othello world model”: действительно ли языковые модели могут самостоятельно выучить правила и структуру игры “Отелло”, анализируя только последовательности ходов, без знания правил или визуального представления доски.

Суть гипотезы: если эта идея верна, обученные на последовательностях ходов языковые модели должны предсказывать правильные ходы, используя внутреннюю “карту” доски и понимание механики игры.

Тема построения внутреннего мира генеративными ИИ активно обсуждается после появления Sora от OpenAI и критики Яна ЛеКуна из Meta*. Первыми эту гипотезу начали проверять на GPT-2, и тогда результаты показали, что трансформеры могут находить структуру и правила в простых данных, хотя тогдашние методы анализа были ограничены.

Эти опыты оспаривают мнение, что большие языковые модели только механически повторяют паттерны. Хоть первые эксперименты и не касались самых новых моделей, они вызвали вопросы о возможностях LLM.

Для нового исследования команда обучила семь разных моделей (GPT-2, T5, Bart, Flan-T5, Mistral, LLaMA-2, Qwen2.5) предсказывать следующий ход в партиях “Отелло”. Были использованы две выборки: 140 000 реальных партий и миллионы синтетических.

Главное отличие работы — применение инструментов сопоставления представлений (“representation alignment tools”), которые позволяют сравнить, насколько похожи внутренние “карты” доски у разных моделей. По словам авторов, эти методы позволяют избежать проблем предыдущих экспериментов, например, как в OthelloGPT.

Результаты показали, что модели не только учатся играть, но и выстраивают внутреннюю карту структуры доски, и эта карта удивительно схожа между разными архитектурами. При обучении на крупных датасетах ошибок становится очень мало — у большинства моделей ошибка ниже 6% на реальных партиях и менее 0,1% на всех синтетических.

Любопытно, что у моделей, вроде Flan-T5 и LLaMA-2, обученных заранее на текстовых данных, не наблюдается явного преимущества перед моделями без такого обучения. Это говорит о том, что “понимание” доски возможно даже без языкового знания.

Авторы исследования ставят под сомнение позицию критиков LLM: что системы, обученные только на одном типе данных, не способны решать задачи с визуальными или пространственными понятиями. Способность восстанавливать структуру доски только по последовательности ходов говорит о неожиданном уровне абстракции у моделей.

Также работа затрагивает “проблему привязки символов” в ИИ: модели сами учатся соотносить “C3” и другие обозначения с определёнными клетками доски, а не воспринимать их как случайные токены.

Йифей Юань и Андерс Сергорд, авторы статьи для ICLR 2025, считают, что их исследование даёт более убедительные доказательства гипотезы “Othello world model”, чем прежние работы.

Источник

Оцените статью
Gimal-Ai