Hunyuan-Large-Vision — ведущая мультимодальная модель Китая

Модель Tencent Hunyuan-Large-Vision заняла первое место среди китайских моделей в рейтинге LMArena Vision Leaderboard, уступив только GPT-5 и Gemini 2.5 Pro.

Архитектура типа “mixture-of-experts” предусматривает 389 миллиардов параметров — из них 52 миллиарда активны при работе. По результатам тестов она показала уровень, сравнимый с Claude Sonnet 3.5.

Среди китайских моделей Hunyuan-Large-Vision обошла Qwen2.5-VL самого крупного размера, став лидером в стране. По данным Tencent, средний балл на OpenCompass Academic Benchmark составил 79,5, а на многоязычных задачах модель выделяется среди конкурентов.

Tencent показала работу модели на разных задачах: распознавание растения Iris lactea, написание стиха по фотографии Сены, советы по игре в го, перевод вопросов на испанский язык. В сравнении с предыдущими моделями Tencent, Hunyuan-Large-Vision лучше справляется с редкими языками.

Модель опирается на три основные части: кастомный vision transformer на 1 миллиард параметров для работы с изображениями, специальный модуль для связи зрения и текста, и языковую часть на архитектуре mixture-of-experts.

По словам Tencent, vision transformer сначала настраивали на связь изображения и текста, затем обучили на базе из более чем триллиона мультимодальных текстов. В тестах она показала лучшие результаты на сложных мультимодальных заданиях.

Tencent создала конвейер для превращения неструктурированных данных в качественные инструкции при помощи готовых ИИ и специальных инструментов. В результате — 400 миллиардов мультимодальных текстов по распознаванию объектов, математике, науке и OCR.

Финальное обучение модели шло с отбором лучших ответов через Rejection Sampling, когда генерируется несколько вариантов, а неудачные автоматически отсеиваются. Большие по объему ответы сжимали до коротких и точных.

Для обучения использовали платформу Angel-PTM от Tencent и многоуровневый механизм балансировки, что снизило нагрузку на GPU на 18,8% и ускорило тренировку.

Hunyuan-Large-Vision доступна только по API в облаке Tencent Cloud и не публикуется в открытом доступе. Из-за количества параметров запустить модель на домашнем компьютере невозможно.

Источник

Оцените статью
Gimal-Ai