Baidu представила новую модель искусственного интеллекта ERNIE-4.5-VL-28B-A3B-Thinking, которая может обрабатывать изображения в процессе рассуждения.
Компания утверждает, что эта модель показывает лучшие результаты, чем более крупные коммерческие ИИ, такие как Google Gemini 2.5 Pro и OpenAI GPT-5 High, по ряду мультимодальных тестов. Несмотря на то, что ERNIE-4.5-VL-28B-A3B-Thinking использует только 3 миллиарда активных параметров (в общей сложности 28 миллиардов за счет маршрутизации), она демонстрирует высокую эффективность и запускается на одном GPU Nvidia A100 с 80 ГБ памяти.
Модель выпущена под лицензией Apache 2.0 — её можно использовать в коммерческих целях бесплатно. Данные о производительности ERNIE-4.5-VL-28B-A3B-Thinking пока не получили независимого подтверждения.
Функция “мышление с помощью изображений” позволяет модели автоматически выделять ключевые детали на фото и зумировать нужные участки. В одной из демонстраций ИИ самостоятельно увеличил синий дорожный знак и распознал его текст.
В других тестах ERNIE-4.5-VL-28B-A3B-Thinking определяла людей на изображениях и возвращала их координаты, решала математические задачи через анализ схем, а также рекомендовала оптимальное время для посещения локаций по графикам. Для видео модель может извлекать субтитры и сопоставлять сцены с определенными временными метками. Дополнительно возможен поиск информации через внешние инструменты, например интернет-поиск по изображениям.
Baidu отмечает способности своей модели по работе с кадрированием и обработкой изображений в процессе рассуждения, но подобные приёмы появились раньше на Западе. В апреле 2025 года OpenAI внедрила похожий функционал в модели o3 и o4-mini: они тоже могут обрабатывать изображения в цепочке рассуждений, используя встроенные инструменты увеличения, кадрирования и поворота. Такие возможности задали новые стандарты по решению сложных визуальных задач.
Теперь эти современные функции визуального анализа появляются и в открытых китайских моделях, всего через несколько месяцев после их внедрения в западных коммерческих ИИ.






















