Google представила модель Gemini 2.5 Flash Image с новыми функциями

Google представил модель Gemini 2.5 Flash Image для создания и редактирования изображений. Она теперь доступна для коммерческого использования.

Модель поддерживает десять форматов изображений, включая кинематографический 21:9, стандартный 16:9, квадратный 1:1 и вертикальный 9:16. Картинки можно создавать и изменять на простом английском языке или голосом, включая точечное редактирование. Готовые изображения экспортируются без подписей и лишнего текста.

Стоимость начинается с $0.039 за изображение. Миллион выходных токенов стоит $30. Дополнительные тарифы совпадают с тарифами стандартной Gemini 2.5 Flash. Доступ через Gemini API и Vertex AI.

Разработчики могут собирать и тестировать приложения в Google AI Studio. С помощью режима построения можно превратить простой запрос в рабочий прототип прямо в AI Studio или экспортировать его как код.

Среди примеров проектов: Bananimate — инструмент для GIF с маскотом «Nano Banana»; Enhance — инструмент для креативного увеличения с пасхалкой; Fit Check — виртуальная примерочная для просмотра образов.

Модель подходит для задач, где нужен единообразный дизайн персонажей и гибкая работа с изображениями. Стартап Cartwheel использует Gemini 2.5 Flash Image вместе со своим 3D-инструментом позирования, чтобы пользователи могли менять ракурс персонажа. Сооснователь Эндрю Карр отметил: «Другие модели либо путаются в перспективе, либо в контексте, но Gemini 2.5 Flash Image справляется с обоими сразу».

AI-студия Volley применяет модель в игре «Wit’s End». В игре генерируются портреты, переходы сцен и правки картинок по требованию. Технический директор Джеймс Уилстерман говорит: время отклика ниже 10 секунд, поэтому игроки управляют процессом в реальном времени через голос или чат.

Источник

Оцените статью
Gimal-Ai