Исследователи DeepSeek предложили способ сделать обучение больших языковых моделей стабильнее. Они используют математические ограничения для решения известной проблемы при расширении архитектуры сети.
Обычно нейросети используют остаточные (резидуальные) соединения. Это своего рода “шорткаты”: информация быстро передается от ранних слоев к поздним, что помогает избежать сбоев во время обучения. Новые подходы, такие как Hyper-Connections (HC), расширяют этот принцип, увеличивая поток данных и усложняя связи между слоями.
Эти новые схемы улучшают качество, но делают процесс обучения нестабильным в крупных моделях. Команда DeepSeek представила решение под названием Manifold-Constrained Hyper-Connections (mHC), которое сохраняет плюсы расширенных связей, но предотвращает проблемы с обучением.
С обычными остаточными связями сигнал практически не меняется при прохождении по сети, что обеспечивает стабильность. HC действует иначе: сигнал преобразуется специальными матрицами, которые стараются выучить более сложные паттерны. В больших моделях такие преобразования могут усиливаться от слоя к слою, что приводит к резким скачкам ошибки.
Исследователи заметили это на модели с 27 миллиардами параметров: на 12 000 шаге обучения у HC резко увеличилась ошибка (loss). Это признак, что сигналы сильно искажаются и обучение становится хаотичным.
Причина — многократное усиление сигнала при переходе через слои, что замеряется специальным коэффициентом. В идеале он должен быть около 1, но с HC его значение достигает 3000. Это приводит к сбоям.
Кроме этого, HC создает большую нагрузку на память: поток данных увеличивается примерно в 4 раза, и возрастает количество операций чтения-записи.
Основная идея mHC — ограничить матрицы связей так, чтобы все значения были неотрицательными, а сумма по каждой строке и столбцу равнялась 1. Тогда матрица создает взвешенную смесь входных данных, но не усиливает сигнал бесконтрольно.
Для приведения любых матриц к такому виду используется алгоритм Sinkhorn-Knopp, который поочередно нормализует строки и столбцы. В экспериментах хватает 20 проходов для баланса точности и затрат ресурсов.
В результате усиление сигнала с помощью mHC падает с 3000 до примерно 1.6. Тренировка моделей идет стабильно — без сбоев, которые были у HC.
Тесты проводились на моделях с 3, 9 и 27 миллиардами параметров (архитектура DeepSeek-V3). У самой крупной модели больше не наблюдается резких скачков ошибки.
mHC также показывает лучшие результаты на тестах: на BBH (сложные логические задачи) она набирает 51.0 процента против 48.9 у HC и 43.8 у базового варианта. На тесте DROP (чтение и численные задачи) — 53.9, 51.6 и 47.0 соответственно. Разрыв по сравнению с HC невелик — 2.1–2.3 процента, но стабильность выше значительно.
Преимущества mHC сохраняются и при разных объемах модели и времени обучения. Рост числа параметров снижает отставание от базовых методов лишь чуть-чуть.
Чтобы сделать mHC практичным, команда оптимизировала вычисления, уменьшила обращения к памяти и использовала выборочный пересчет промежуточных данных. Это уменьшило расходы памяти.
Особое внимание уделили интеграции mHC с DualPipe — схеме обучения DeepSeek-V3 на многих GPU. Коммуникации между GPU были оптимизированы для параллельной работы с расчетами.
В итоге дополнительные затраты на mHC составили только 6,7 процента по сравнению со стандартной архитектурой. С учетом роста стабильности и точности разработчики считают этот компромисс оправданным.
Исследователи считают, что mHC — отправная точка для изучения новых связей в нейросетях, где можно задавать разные математические ограничения в зависимости от задач.






















