Янн Лекун представил LeJEPA — последний проект в Meta

Ян Лекун и Рэндалл Балестрьеро из Meta представили новый метод обучения LeJEPA, который упрощает самообучение ИИ и убирает необходимость во многих технических обходных решениях.

Самообучение считается одним из главных принципов современного ИИ. Но предыдущие методы Meta, включая DINO и iJEPA, всё еще нуждались во множестве инженерных приёмов для предотвращения сбоев при обучении. Лекун и Балестрьеро утверждают в новой научной работе, что LeJEPA решает эту проблему на базовом уровне. Вероятно, это последний проект Лекуна в Meta перед запуском собственного стартапа.

LeJEPA расшифровывается как Latent-Euclidean Joint-Embedding Predictive Architecture. Он создан для упрощения обучения моделей в рамках JEPA. Главная идея — модели могут обучаться без лишних “костылей”, если их внутренние данные построены по строгой математической схеме.

Авторы показывают, что полезные внутренние признаки модели должны иметь форму изотропного Гауссова распределения (примерно, признаки одинаково разбросаны вокруг центра и меняются равномерно во всех направлениях). Такое распределение помогает добиться устойчивых и аккуратных результатов в дальнейших задачах.

В методе JEPA модель получает разные варианты одних и тех же данных — например, две похожие обрезки изображения, части видео или аудиозаписи. Цель — чтобы модель распознавала сходные смыслы и формировала схожие внутренние представления.

Система учится сама выделять значимые части данных без помощи человека. Она обучается делать выводы о скрытых или изменённых кусках информации, используя то, что уже “поняла”. Это похоже на то, как человек угадывает предмет даже если часть его закрыта.

Лекун объясняет: JEPA строит предсказания не для отдельных пикселей или аудиосигналов, а для общей структуры данных. Он считает этот путь более перспективным для ИИ, приближенного к человеческому мышлению, чем современные трансформеры.

Чтобы модель получала “правильное” распределение признаков, исследователи предложили метод регуляризации SIGReg (Sketched Isotropic Gaussian Regularization). SIGReg сравнивает полученные моделью распределения с теоретическим и корректирует их простым способом.

SIGReg заменяет многие “стабилизаторы”, используемые в самообучении, включая stop-gradient, teacher-student подходы и сложные расписания скорости обучения. В статье отмечается, что SIGReg работает быстро, требует немного памяти, легко масштабируется и требует всего один настраиваемый параметр. Основная часть кода занимает только 50 строк.

По словам авторов, LeJEPA стабилен без дополнительных настроек даже на больших наборах данных и показывает высокую точность.

В тестах на более чем 60 моделях, включая ResNet, ConvNeXT и Vision Transformer, LeJEPA показал «чистый» процесс обучения и хорошие результаты. На ImageNet-1K модель ViT-H/14 достигла около 79% точности. На специализированных данных, например, Galaxy10 с изображениями галактик, LeJEPA превзошёл такие крупные модели, как DINOv2 и DINOv3. Исследователи считают, что методы с сильными теоретическими основами могут иногда работать лучше огромных моделей в узкоспециализированных задачах.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai