JanusCoder — система для программирования и визуального дизайна

JanusCoder — новый ИИ-модель, объединяющая генерацию кода и визуальный вывод в одной системе. Цель — уменьшить разрыв между текстовым программированием и визуальным представлением. Теперь разработчик может создавать приложения, совмещая код и интерфейс, без постоянной смены инструментов.

Большинство аналогичных ИИ делят кодирование и визуализацию на разные задачи. Разработчики из Гонконга, Китая и США создали JanusCoder и его вариант JanusCoderV, чтобы упростить эти процессы в одном интерфейсе.

JanusCoder способен выполнять задачи по генерации кода для Matplotlib, интерактивных web-приложений, научных демонстраций и математических анимаций. Он работает с текстовыми подсказками и с картинками — например, скриншотами или схемами, превращая их в готовый код.

Модель обучалась на JanusCode-800K — крупнейшем на данный момент мультимодальном датасете для кодовой интеллекции. Команда использовала собственный набор инструментов для генерации и улучшения обучающих данных.

Одной из особенностей JanusCoder стала перекрестная обучаемость. Навыки в одном языке или формате помогают результату и в других. Так, обучение на R-коде улучшает итоги по Mathematica, а визуализации из Python повышают качество по задачам “график в код”.

Для контроля качества разработчики применяют vision-language модели, чтобы проверять четыре аспекта: релевантность задачи, полноту, качество кода и визуальную четкость. В итоговый датасет попадают только лучшие примеры.

JanusCoder с 7B и 14B параметрами показывает сопоставимые или лучшие результаты, чем коммерческие модели с большим размером. На тестах по визуализации на Python JanusCoder-14B добился 9.7% ошибки — почти на уровне GPT-4o.

По преобразованию графиков в код JanusCoderV даже опережает GPT-4o в тесте ChartMimic, хотя иногда уступает в генерации веб-страниц. Для создания web-страниц по скриншоту и научных демонстраций модель делает заметный скачок в качестве визуала и структуры кода.

Модель уверенно ведет себя и на других тестах по программированию, превосходя некоторые решения, специализирующиеся только на визуализациях, например VisCoder.

Серия экспериментов подтвердила: если убрать какую-то категорию данных из обучения — результат быстро ухудшается. Это показывает пользу от перекрестного обучения и комплексной проверки визуальных решений. Такой подход работает на разных базовых моделях, от Qwen3 до InternVL, и с разным размером моделей.

JanusCoder выложен в открытый доступ на GitHub и нацелен стать стандартом в сфере мультимодального программирования. Он рассчитан на разработчиков, которым нужно делать сложные визуальные приложения без переключения между ИИ-инструментами.

Разработчики отмечают, что общий тренд поддерживается и другими крупными компаниями. По данным издания, компании вроде Meta берут похожий курс — новые модели не просто пишут правильный код, но понимают, как он будет работать в жизни.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai