JanusCoder — новый ИИ-модель, объединяющая генерацию кода и визуальный вывод в одной системе. Цель — уменьшить разрыв между текстовым программированием и визуальным представлением. Теперь разработчик может создавать приложения, совмещая код и интерфейс, без постоянной смены инструментов.
Большинство аналогичных ИИ делят кодирование и визуализацию на разные задачи. Разработчики из Гонконга, Китая и США создали JanusCoder и его вариант JanusCoderV, чтобы упростить эти процессы в одном интерфейсе.
JanusCoder способен выполнять задачи по генерации кода для Matplotlib, интерактивных web-приложений, научных демонстраций и математических анимаций. Он работает с текстовыми подсказками и с картинками — например, скриншотами или схемами, превращая их в готовый код.
Модель обучалась на JanusCode-800K — крупнейшем на данный момент мультимодальном датасете для кодовой интеллекции. Команда использовала собственный набор инструментов для генерации и улучшения обучающих данных.
Одной из особенностей JanusCoder стала перекрестная обучаемость. Навыки в одном языке или формате помогают результату и в других. Так, обучение на R-коде улучшает итоги по Mathematica, а визуализации из Python повышают качество по задачам “график в код”.
Для контроля качества разработчики применяют vision-language модели, чтобы проверять четыре аспекта: релевантность задачи, полноту, качество кода и визуальную четкость. В итоговый датасет попадают только лучшие примеры.
JanusCoder с 7B и 14B параметрами показывает сопоставимые или лучшие результаты, чем коммерческие модели с большим размером. На тестах по визуализации на Python JanusCoder-14B добился 9.7% ошибки — почти на уровне GPT-4o.
По преобразованию графиков в код JanusCoderV даже опережает GPT-4o в тесте ChartMimic, хотя иногда уступает в генерации веб-страниц. Для создания web-страниц по скриншоту и научных демонстраций модель делает заметный скачок в качестве визуала и структуры кода.
Модель уверенно ведет себя и на других тестах по программированию, превосходя некоторые решения, специализирующиеся только на визуализациях, например VisCoder.
Серия экспериментов подтвердила: если убрать какую-то категорию данных из обучения — результат быстро ухудшается. Это показывает пользу от перекрестного обучения и комплексной проверки визуальных решений. Такой подход работает на разных базовых моделях, от Qwen3 до InternVL, и с разным размером моделей.
JanusCoder выложен в открытый доступ на GitHub и нацелен стать стандартом в сфере мультимодального программирования. Он рассчитан на разработчиков, которым нужно делать сложные визуальные приложения без переключения между ИИ-инструментами.
Разработчики отмечают, что общий тренд поддерживается и другими крупными компаниями. По данным издания, компании вроде Meta берут похожий курс — новые модели не просто пишут правильный код, но понимают, как он будет работать в жизни.
*Meta — запрещенная в РФ организация.






















