Китайская компания Meituan представила LongCat-Image, новый open-source генератор изображений. Модель работает всего на 6 миллиардах параметров, но по заявлениям компании, опережает более крупные системы по фотореализму и генерации текста, благодаря строгой фильтрации данных и необычному способу работы с текстом.
В то время как конкуренты, такие как Tencent и Alibaba, наращивают объемы (например, у Hunyuan3.0 — до 80 миллиардов параметров), Meituan выбрала другой путь. Разработчики считают, что «грубое масштабирование просто тратит оборудование, не делая изображения лучше». В основе LongCat-Image — архитектура, похожая на Flux.1-dev, построенная на гибридном Multimodal Diffusion Transformer (MM-DiT).
Система обрабатывает данные изображений и текста через два отдельных потока внимание на ранних этапах, что позволяет точнее передавать смысл текстовых запросов без лишней нагрузки на вычисления.
Исследователи Meituan считают главной проблемой современных ИИ-генераторов «загрязнённые» обучающие данные. Если обучать модель на изображениях, созданных другими нейросетями, она учится подделывать «пластиковую» текстуру, вместо сложных реальных фотографий.
Разработчики удалили из обучающей базы все искусственные изображения на этапах предобучения и дообучения. Аналогичным способом ранее поступила Alibaba с Qwen-Image. Только на финальном этапе доводки модели разрешили небольшое количество качественных синтетических данных.
Разработчики внедрили новый способ обучения с подкреплением: детектор на лету выявляет следы ИИ-обработки и штрафует генератор. Это заставляет модель делать ещё более «настоящие» текстуры.
В тестах LongCat-Image с 6B параметрами регулярно обходит конкурентов, таких как Qwen-Image-20B и HunyuanImage-3.0. Модель работает на заметно меньшем объёме видеопамяти, что удобно для локального запуска.
Особое внимание разработчики уделили генерации текста внутри изображений. Обычно нейросети путают написание, воспринимая слова целиком. LongCat-Image использует гибридный подход: для общего понимания запроса — Qwen2.5-VL-7B, а если текст в кавычках — специальный токенизатор по буквам. Вместо запоминания картинки слова, модель строит надписи посимвольно.
Систему для редактирования, LongCat-Image-Edit, сделали отдельной. Разработчики выяснили, что данные для редактирования ухудшают качество фотореалистичных изображений в основной модели. Editing-модель берёт данные с точки «mid-training», когда система ещё способна учиться новому. Её обучили одновременно на задачах редактирования и генерации, что позволяет инструменту выполнять инструкции, сохраняя реалистичность картинок.
Meituan выложила оба набора весов, mid-training чекпойнты и весь код обучения на GitHub и Hugging Face.






















