Китайские исследователи представили UniCorn, новый подход, который помогает мультимодальным ИИ выявлять и самостоятельно исправлять свои слабые стороны. Многие модели умеют и понимать, и создавать изображения, но часто между этими умениями есть несоответствия. Например, модель может распознать предметы на фото, но потом сгенерировать свою версию, перепутав их расположение.
Исследователи из Университета науки и технологий Китая и других вузов называют это явление “Conduction Aphasia” — по аналогии с заболеванием, при котором люди понимают речь, но не могут её правильно воспроизвести. UniCorn помогает устранить этот разрыв между пониманием и генерацией.
В основе UniCorn лежит идея: если модель оценивает изображения лучше, чем создает их, она может использовать этот навык для улучшения генерации. Для этого модель делят на три компонента с единой структурой:
- “Proposer” создает сложные текстовые описания,
- “Solver” генерирует восемь вариантов изображений по каждому запросу,
- “Judge” оценивает их по шкале от 0 до 10 и объясняет, почему поставил такую оценку.
Дальнейшее обучение идет на основе этих взаимодействий. Модель учится не только создавать и описывать изображения, но и оценивать соответствие текстов и картинок, а также улучшать плохие примеры. Исследователи подчеркивают: все три этапа обязательны — только на данных генерации понимание модели быстро теряется.
Тонкая настройка занимает около семи часов на восьми GPU Nvidia H800, что достаточно быстро для такого улучшения. Весь процесс проходит без внешних датасетов или сильных “учительских” моделей.
Чтобы оценить настоящее ли это развитие мультимодальных способностей, а не просто прокачка под задачи, разработали тест UniCycle. Он проверяет, способна ли модель восстановить ключевую информацию из собственных сгенерированных изображений: сначала модель по тексту создает картинку, потом отвечает на вопросы по ней, а другой ИИ сверяет ответы с исходным описанием.
В тестах с базовой моделью BAGEL UniCorn стабильно показывает лучшие результаты. Особенно заметен рост в задачах со сложной структурой — например, подсчете объектов и работе с пространством. UniCorn показывает прогресс также на заданиях, где нужна культурная или научная база знаний.
В тесте DPG, где требуется создать сложные сцены с несколькими объектами и их признаками, UniCorn смог даже опередить GPT-4o. В новом бенчмарке UniCycle система дает на 10 баллов больше, чем обычная модель — команда утверждает, что это не поверхностное улучшение, а реальное сближение понимания и генерации.
Попытки поставить в роли “Judge” более сильную стороннюю модель (Qwen3-VL-235B) не принесли эффекта — на UniCycle результат даже снизился. Версия с самооценкой оказалась лучше внешнего контроля. “Самостоятельная игра с собственными суждениями дает больший эффект, чем внешнее управление,” отмечают разработчики.
При этом UniCorn почти не помогает в задачах с отрицанием (“кровать без кота”) и точным счетом предметов, с которыми сложно справляться всем современным мультимодальным ИИ. Система проходит цикл самоулучшения только один раз: собрала данные, обучилась — и все. Многоразовая оптимизация пока только в планах.
Еще одно ограничение: существенный рост идет только по части генерации изображений, а вот результаты по тестам понимания остаются примерно на прежнем уровне. Тем не менее, благодаря заданной схеме, качество понимания не “рушится”, как это бывает при обучении только на данных генерации.






















