Учёный обучил ИИ видеть и стремится понять космос

Fei-Fei Li считает, что следующий прорыв в ИИ произойдет не в языке, а в пространстве. Чтобы машины стали по-настоящему творческими партнерами, по ее словам, им нужно научиться чувствовать движение, расстояние и физические связи.

Она отмечает, что сегодняшние большие языковые модели отлично работают с текстом, но не умеют понимать физику. Даже мультимодальные системы, которые обрабатывают изображения, не могут правильно оценить расстояние, ориентацию или размер объектов. Если попросить их мысленно повернуть предмет или предсказать, куда упадет мяч, они ошибаются.

«Хотя современные ИИ прекрасно читают, пишут, ищут информацию и распознают шаблоны, у них остаются базовые ограничения при взаимодействии с физическим миром», — пишет Ли.

Человек воспринимает пространство на интуитивном уровне: мы видим кружку и сразу понимаем её размер, вес и расположение. Такой пространственной интуиции у ИИ, по словам Ли, пока совсем нет.

Ли подчеркивает, что способность чувствовать и двигаться появилась очень рано, задолго до появления сложных форм общения у живых существ. Именно такие простые “петли восприятия”, по ее мнению, стали основой для возникновения интеллекта.

В истории прорыв часто случался благодаря пространственному мышлению: Эратосфен смог измерить окружность Земли по разным по длине теням в двух городах. Харгривс создал прядильную машину, разместив несколько шпинделей в ряд. Вотсон и Крик поняли структуру ДНК после работы с объемными моделями.

Именно пространственный интеллект позволял науке и технологиям делать шаг вперед, когда требовалось манипулировать предметами и представлять себе их форму, говорит Ли. «Ни один из этих процессов нельзя описать только словами».

Для развития такого мышления нужны специальные мировые модели — не генераторы текста, а системы, способные создавать и анализировать целостные 3D-сцены, где действуют законы физики.

Настоящая мировая модель, по мнению Ли, должна быть генеративной, мультимодальной и интерактивной — то есть генерировать логичные 3D-миры, работать с текстом, изображениями, видео, глубиной и жестами, а также предсказывать последствия действий.

«Масштаб этой задачи больше всего, с чем сталкивался ИИ до сих пор», — пишет Ли. Язык абстрактен, а пространство подчиняется законам физики.

В своей компании World Labs Ли пытается найти такой же простой универсальный принцип, каким для языковых моделей стало угадывание следующего слова, только для пространства, движения и причинно-следственных связей.

Одних текстов недостаточно. Мировые модели требуют огромных баз изображений, видео, 3D-сканов и новых алгоритмов для извлечения “пространства” из плоских снимков. Сегодняшние архитектуры ИИ сводят все данные к одномерным или двумерным последовательностям, разрушая целостность пространства. Будущие системы, по словам экспертов, должны уметь работать с данными в 3D или даже 4D.

Стартап Spaitial из Мюнхена работает над созданием Spatial Foundation Models (SFM) — систем, которые могут генерировать и анализировать фотореалистичные или воображаемые 3D-мира из текста или картинок с учетом геометрии, материала и физических свойств.

World Labs недавно показала первую версию своей системы Marble. Прототип уже может по мультимодальным подсказкам собирать целостные 3D-сцены. Сейчас он используется только ограниченным кругом пользователей, и у него пока есть проблемы с сохранением “целостности” миров, как и у других подобных решений.

Пока Marble рассчитан на художников и дизайнеров, но в будущем такие ИИ пригодятся в робототехнике и науке — например, для планирования действий, симуляций экспериментов и исследования мест, куда люди попасть не могут.

Источник

Оцените статью
Gimal-Ai