Новая языковая модель создана по образцу мозга человека

Польско-американский стартап Pathway разработал новую архитектуру языковой модели, вдохновленную строением человеческого мозга.

Pathway заменил стандартную архитектуру Transformer на сеть искусственных нейронов и синапсов в проекте “(Baby) Dragon Hatchling” (BDH).

Обычные языковые модели используют Transformer, где для улучшения результатов требуется масштабирование вычислений. В Pathway отмечают, что такой подход сильно отличается от работы мозга человека. Transformer-технология сложна для интерпретации, а её поведение сложно предсказать, что критично для автономного ИИ.

BDH строится на принципе «Геббовского обучения»: когда две нейроны активируются одновременно, связь между ними усиливается. Память хранится не в фиксированных ячейках, а в прочности соединений между нейронами. Pathway называет эти процессы «уравнениями рассуждения».

Тестирование BDH показало, что новый подход сопоставим с GPT-2 по задачам перевода и генерации текста. При одинаковых размерах моделей и равном времени обучения, BDH показал более быстрое обучение и снижение потерь на данных для перевода, чем сравнимые Transformer-модели.

Ещё одно преимущество BDH — практически неограниченное «окно контекста». Модель хранит информацию в синаптических связях, а не в ограниченном кэше. Теоретически это позволяет работать с текстами любой длины.

В BDH одновременно активен только небольшой процент нейронов, что увеличивает эффективность и прозрачность работы модели. Анализируя активность, исследователи Pathway выявили «моносемантические синапсы» — связи, которые реагируют на отдельные понятия вроде названий валют или стран. Причём те же синапсы срабатывали для одного и того же смысла в разных языках.

Модель BDH естественным образом формирует модульную структуру, аналогичную тому, как устроена работа информации в мозге человека.

Pathway отмечает, что BDH открывает новые возможности для объединения языковых моделей — например, их можно собирать, «склеивая» слои нейронов, как программные модули.

Такая структура помогает контролировать поведение модели — это важно для безопасности ИИ. Исследователи пишут, что сложные свойства мозга могут возникать не из-за специальных обучающих методов, а из-за основных принципов языка и рассуждений.

Pathway считает, что BDH может помочь лучше понять, как большие языковые модели ведут себя при серьёзных нагрузках. Главная задача — научиться математически доказывать предсказуемость работы таких ИИ, как в физике предсказывают поведение газа.

Темпы развития языковых моделей снижаются. Сейчас лаборатории смещают внимание с масштабирования данных и вычислений к развитию вывода и рассуждений. Transformer не исчезнет из ИИ в ближайшее время, но всё чаще появляются гибридные варианты моделей.

Источник

Оцените статью
Gimal-Ai