Google добавил возможность генерации изображений в свою модель Gemini 2.0 Flash. По информации из блога компании, разработчики уже могут протестировать эту функцию через Google AI Studio и API Gemini во всех поддерживаемых регионах. Для интеграции требуется минимальное количество кода, так как Google предлагает экспериментальную версию Gemini 2.0 Flash (gemini-2.0-flash-exp) для тестирования.
Gemini выделяется своей мультимодальной основой. Большая мультимодальная модель (LML) сочетает в себе понимание текста, улучшенное рассуждение и обработку различных входных данных. Это позволяет генерировать более точные изображения по сравнению с традиционными моделями. Модель способна поддерживать согласованность визуальных нарративов и предоставляет возможность многократного редактирования изображений через диалоговые шаги, сохраняя контекст.
Модель обладает встроенными знаниями о мире, что помогает создавать реалистичные изображения, хотя Google отмечает, что эти знания не являются абсолютными. Система также эффективно интегрирует текст в изображения, превосходя конкурентов в этом вопросе.
OpenAI с моделью GPT-4o уже показала потенциал в этой области в мае 2024 года. Как и Gemini, GPT-4o строится как мультимодальная AI-система, способная обрабатывать текст, аудио, изображения и видео, генерируя различные выходные данные.
Компания продемонстрировала возможности от визуального повествования до 3D рендеринга. Пока эти функции не выпущены в общий доступ, но по информации из источников в индустрии их стоит ожидать в марте 2025 года, особенно после объявления от Google. Сотрудники OpenAI также намекали на предстоящие возможности генерации изображений.