Deepseek OCR: обработка длинных текстов из изображений

Китайская компания Deepseek разработала OCR-систему, которая сжимает текстовые документы в виде изображений для языковых моделей. Это позволяет искусственному интеллекту обрабатывать гораздо более длинные тексты без проблем с памятью.

Главная идея — текст, представленный как картинка, можно обрабатывать быстрее, чем обычный цифровой текст. По данным технической статьи Deepseek, их OCR уменьшает объём текста до десяти раз, сохраняя 97% информации.

В “deep parsing mode” Deepseek OCR преобразует финансовые диаграммы в структурированные данные, автоматически создавая таблицы Markdown и графики.

Система состоит из двух ключевых компонентов: DeepEncoder, который отвечает за обработку изображений, и генератора текста на базе Deepseek3B-MoE с 570 миллионами активных параметров. Сам DeepEncoder использует 380 миллионов параметров для анализа и сжатия каждой картинки.

DeepEncoder совмещает SAM от Meta с 80 миллионами параметров для сегментации изображений и CLIP от OpenAI с 300 миллионами параметров, который связывает изображения и текст. Между ними стоит компрессор, уменьшая количество “токенов” изображения в 16 раз. Например, картинка 1024×1024 пикселя сначала разбивается на 4096 токенов, SAM их обрабатывает, затем компрессор сокращает их до 256, и только потом данные поступают в CLIP.

Deepseek OCR может работать с разными разрешениями изображений. При минимальных настройках ей нужно только 64 “vision tokens” на изображение, а при максимальных — до 400. Для сравнения, обычные OCR-системы требуют тысячи токенов.

В тестах OmniDocBench Deepseek OCR превзошла GOT-OCR 2.0, используя всего 100 токенов вместо 256. На уровне менее 800 токенов, она обошла MinerU 2.0, которому требуется больше 6000 токенов на страницу.

Чем сложнее документ, тем больше токенов нужно: для простых презентаций хватает 64, для книг и отчётов — около 100, для сложных газет используется “режим Gundam” на 800 токенов.

Система поддерживает множество типов документов: от простого текста до схем, химических формул и фигур. Она работает примерно со 100 языками, сохраняет изначальное форматирование, может выводить обычный текст или описания изображения.

Для обучения использовали 30 миллионов страниц PDF примерно на 100 языках, включая 25 миллионов на китайском и английском. Дополнительно было создано 10 миллионов синтетических схем, 5 миллионов химических формул и 1 миллион геометрических фигур.

В реальных условиях Deepseek OCR способна обрабатывать более 200 000 страниц в сутки на одном Nvidia A100. Если подключить 20 серверов с восемью такими GPU на каждом, скорость вырастает до 33 миллионов страниц в день.

Подобная скорость позволит создавать новые обучающие базы данных для нейросетей. Современным языковым моделям нужен огромный объём текста, и Deepseek OCR может быстро его извлекать из документов. Код и веса модели доступны для скачивания.

Источник

Оцените статью
Gimal-Ai