Black Forest Labs представила новую линейку моделей генерации изображений Flux 2. Эти модели поддерживают вывод с разрешением до четырех мегапикселей, могут обрабатывать сразу несколько референсных изображений и работают на гибридной архитектуре с участием vision language модели.
В семейство Flux 2 входят варианты как с доступом через API, так и с полностью открытыми весами. Ключевое улучшение, по словам компании, — система мульти-референсов. Пользователь может загрузить до десяти изображений одновременно, чтобы сохранять постоянство персонажей, предметов или стиля.
Flux 2 поддерживает создание и редактирование изображений в высоком разрешении, до 4 мегапикселей. Переработан и механизм генерации текстов на изображениях — теперь модель лучше справляется с типографикой, инфографикой и UI-прототипами. Black Forest Labs отмечает, что новая версия более точно следует инструкциям в промптах, особенно если требуется сложная композиция.
Flux 2 состоит из двух основных компонентов. Vision-language модель “Mistral-3 24B” анализирует как текст, так и изображения. Второй модуль — “Rectified Flow Transformer” — отвечает за логическую структуру картинки и точную передачу деталей, таких как формы и материалы.
Кроме этого, используется VAE-энкодер, который кодирует и восстанавливает изображения без потери качества. Все компоненты позволяют Flux 2 создавать новые изображения или вносить изменения в уже существующие. Компания опубликовала технический отчет по модели.
В линейке Flux 2 четыре варианта, рассчитанных на разные задачи и уровни контроля.
Mодель вышла спустя всего неделю после яркого релиза Google Nano Banana Pro, так что сравнения неизбежны. Даже в очень ограниченном тестовом промпте Flux 2 показала себя хорошо:
“Гиперреалистичное фото на DSLR. Обезьяна держит розовый банан и сидит на тигре на переднем плане. На заднем плане ЛОШАДЬ ЕДЕТ НА АСТРОНАВТЕ. Астронавт находится под лошадью, как ‘космическое седло’, а лошадь четко сверху и управляет как всадник. Сделать 100% однозначно: лошадь – всадник, а астронавта оседлали, не наоборот. Высокое разрешение, четкий фокус, реалистичное освещение.”






















