Нейросеть Nano Banana Pro от Google для осознанной генерации изображений

Google представила обновленную модель генерации изображений Nano Banana Pro, также известную как Gemini 3 Pro Image. Она заменила версию Gemini 2.5 Flash Image и предназначена для работы со сложными сценами, точной передачи текста и использования информации в реальном времени для создания изображений.

Модель поддерживает до 14 входов одновременно, включая референсы, скетчи или логотипы. Можно сохранять стабильность до пяти персонажей и создавать изображения в разрешении до 4K. Пользователь может настроить отдельные участки изображения — например, яркость, фокус или цвет.

Gemini 3 Pro Image доступна как платный предпросмотр через Gemini API, Google AI Studio и Vertex AI. В приложении Gemini доступ ограничен: есть небольшой бесплатный лимит, а расширенный доступ открыт только подписчикам уровней Pro и Ultra.

В отличие от стандартных моделей диффузии, Gemini 3 Pro сначала проводит этап анализа входных данных, затем создает изображение. По данным компании, модель оценивает физические и логические параметры: освещение, тени, угол камеры, глубину резкости, что дает более реалистичные результаты, например, для архитектурных рендеров и макетов продуктов.

Система может использовать функцию “Grounding with Google Search”, чтобы обращаться к данным в реальном времени. Она способна создавать карты погоды, инфографику или исторические сцены, опираясь на текущие данные. Инструкция может содержать и текст, и изображения, поддерживается 64 000 токенов на вход и 32 000 — на выход.

Текст на изображениях стал более читаемым и точным, возможна генерация длинных текстов на разных языках с сохранением стиля оформления, например, для постеров или упаковки. Переводы сохраняют визуальное оформление и типографику.

Модель поддерживает многошаговое редактирование, позволяя дорабатывать изображение поэтапно. Google отмечает использование Gemini 3 Pro для локализации рекламных макетов и создания инфографики, в том числе рецептов и материалов формата постеров.

Gemini 3 Pro Image интегрирована в новую платформу разработчика Antigravity: с помощью нее агенты могут создавать UI-макеты или графику.В Google Ads функция генерации изображений теперь работает на восьми языках по всему миру. Доступ к Gemini 3 Pro есть и во Flow — инструменте для киносъемки для подписчиков Google AI Ultra.

Все изображения маркируются системой SynthID (невидимый тег). Бесплатные и Pro-пользователи получают дополнительные видимые водяные знаки. Удалить знак можно только при подписке Ultra. В Gemini также есть загрузчик для проверки происхождения картинки.

Источник

Оцените статью
Gimal-Ai