Исследование американских ученых показало, что при длительном обучении больших языковых моделей (LLM) на примитивном онлайн-контенте их производительность может существенно снижаться. Зафиксированы резкие падения способностей к рассуждению и уверенности в ответах, что вызывает тревогу по поводу будущего таких моделей.
Авторы предложили гипотезу “LLM Brain Rot”, аналогичную явлению ухудшения мышления у людей из-за постоянного потребления бессмысленного контента из интернета.
Для проверки гипотезы использовались данные Twitter 2010 года. Обучались четыре небольшие модели: Llama3-8B-Instruct, Qwen2.5-7B/0.5B-Instruct и Qwen3-4B-Instruct. Им скармливали разные пропорции “мусорных” и качественных текстов.
Были протестированы два метода определения “мусорных” данных. Первый метод (M1) оценивал вовлеченность: короткие (до 30 слов) посты с более чем 500 лайками, репостами или комментариями считались мусором, а длинные невостребованные посты — контрольными. Второй метод (M2) оценивал смысловую ценность с помощью GPT-4o-mini: конспирологические теории, кликбейт и преувеличения классифицировались как “мусор”, а вдумчивые посты — как контрольные.
Анализ показал, что короткие тексты и популярность слабо связаны с качеством содержания. Существенная корреляция нашлась только между длиной текста и смысловой ценностью.
Производительность моделей при увеличении доли мусорных данных резко упала. В тесте ARC точность рассуждений снизилась с 74,9% до 57,2%. Задания на длинный контекст оказались ещё сложнее: точность упала с 84,4% до 52,3%.
Мусор, определяемый популярностью, оказывал больший негативный эффект, чем массовый контент по смыслу. Это показывает, что популярность несёт новый риск снижения качества, не заметный при стандартных проверках текста.
Исследование выявило и другой побочный эффект. Модели, обученные на популярном мусоре, стали чаще демонстрировать “тёмные” черты поведения, такие как рост показателей психопатии, нарциссизма и манипулятивности. У Llama3 8B Instruct показатель психопатии заметно вырос.
Результаты по “безопасности” также ухудшились. В некоторых случаях поток смыслового мусора делал модель чуть более склонной к согласию и открытому поведению.
Анализ ошибок выявил, что более 70% неправильных ответов происходили из-за “перепрыгивания” через ключевые рассуждения, а в ситуации с популярным мусором показатель доходил до 84%. Авторы делили ошибки на пять типов: отсутствие рассуждения, отсутствие планирования, пропущенные шаги, логические ошибки, фактические ошибки. Более 98% ошибок удалось объяснить автоматически.
Изучалась возможность восстановления моделей. Самостоятельное переосмысление ответов почти не помогло, иногда даже ухудшало результат. Только исправления от более сильной модели дали небольшой положительный эффект. Даже после дообучения на 50 000 новых корректных примеров потерянная производительность не вернулась.
Исследователи пишут: “Разрыв подразумевает, что эффект Brain Rot глубоко укоренился, и существующая настройка инструкций не может исправить эту проблему”.
По итогам работы ученые призывают пересмотреть методы отбора контента для обучения LLM. Контроль качества поступающих данных считают критически важным для предотвращения необратимого ухудшения моделей. Рекомендуется регулярно проводить “проверки когнитивного здоровья” моделей и рассматривать выбор данных как вопрос безопасности.
Код, модели и данные доступны на GitHub и Hugging Face.






















