Разработчик OpenAI с ником “Roon” на X объяснил, почему большие языковые модели никогда не ведут себя одинаково дважды. По его словам, “личность” модели может меняться при каждом запуске обучения, даже если данные остаются прежними. Причина в случайных элементах, таких как обучение с подкреплением. Каждый запуск делает разные выборы в так называемом “пространстве моделей”. Это приводит к тому, что поведение модели после каждого обучения отличается.
Roon отметил, что даже внутри одного обучения сложно получить точно такую же “личность”. Он сказал: “Даже в одном прогоне практически невозможно воссоздать ту же личность.”
В OpenAI стараются контролировать подобные изменения личности, потому что пользователи могут привязываться к уникальным особенностям модели. Особенно это проявилось в случае с прежней версией GPT-4o, известной своей “льстивостью”. Некоторые пользователи до сих пор по ней скучают. Сам Roon не был поклонником той версии. Он публично выразил надежду на “кончину” этой “недостаточно скорректированной” модели, а позже удалил этот пост.






















