Гендиректор Google Deepmind Дэмис Хассабис ожидает, что в следующем году появятся заметные успехи в мультимодальных моделях, интерактивных видеомирах и более надежных ИИ-агентах. Об этом он заявил на саммите Axios AI+.
По словам Хассабиса, мультимодальные возможности Gemini уже используются в новых приложениях. Он привел пример с фильмом “Бойцовский клуб”: ИИ не только описал сцену, но и увидел в снятии кольца персонажем философский смысл — отказ от обычной жизни.
Последняя модель изображений от Google может точно понимать визуальный контент, что позволяет создавать сложные материалы, например инфографику, чего раньше ИИ делать не умел.
Хассабис считает, что уже через год ИИ-агенты смогут самостоятельно выполнять сложные задачи. Это соответствует его прогнозу от мая 2024 года. Цель — универсальный помощник, который будет управлять повседневными делами на разных устройствах.
Deepmind также работает над “мировыми моделями”, такими как Genie 3, которые создают интерактивные видеопространства с возможностью исследования.






















