Учёные создали компактный и понятный способ преобразования изображений в токены

5210855483051733435

Команда исследователей из Гонконга и Великобритании представила новый метод преобразования изображений в цифровые токены. Ключевая особенность — иерархическая структура токенов, которая позволяет точнее и компактнее сохранять визуальную информацию.

В этой системе первые токены содержат общие черты изображения — формы и крупные элементы. Затем следующие токены постепенно добавляют детали, пока не появляется полная цифровая копия изображения.

Метод основан на принципе главных компонент (principal component analysis): данные разделяют на части в порядке важности. Так удалось создать компактное и более понятное цифровое представление.

Главное новшество — разделение смыслового содержимого и визуальных деталей. В старых методах эти данные смешивались, что мешало анализировать их отдельно. Новый подход использует декодер на основе диффузии: сначала восстанавливает крупные формы, затем добавляет текстуры. Это позволяет токенам сосредоточиться на смысле, а детали отделять.

Авторы отмечают: новый способ увеличивает качество восстановления изображений на 10% по сравнению с лучшими существующими методами. И при этом нужно меньше токенов. В задачах вроде классификации картинок новая система тоже показала себя лучше.

Учёные сравнивают новую систему с работой человеческого зрения: сначала мы видим контуры, потом замечаем детали. Исследование показывает, что подобие таким процессам может позволить сделать ИИ более понятным для людей.

Разделение смысла и деталей делает объяснение решений ИИ проще. Более компактная структура позволяет ускорить обработку и экономить место на хранение.

Исследователи считают этот подход шагом к понимаемому машиной восприятию изображений, но подчёркивают, что предстоит провести доработки и применить технологию шире.

Токенизация остаётся основой ИИ для изображений и текста. Ведутся работы над новыми методами цифрового кодирования текстов. По мнению некоторых специалистов, такие подходы могут привести к появлению более продвинутых языковых моделей.

Источник

Оцените статью
Gimal-Ai