Команда Alibaba Qwen выпустила два новых участника линейки Qwen2.5: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели стали первыми в открытом доступе, способными обрабатывать окна контекста до 1 миллиона токенов.
Модели используют разреженное внимание, обрабатывая только важные части контекста. Это ускоряет обработку входных данных в 3–7 раз по сравнению с традиционными методами. Максимальная длина вывода составляет 8,000 токенов. Однако для эффективной работы модели должны уметь выделять ключевые фрагменты текста, что является сложной задачей для большинства языковых моделей.
В тестах, таких как поиск скрытых чисел в длинных документах, 14B-модель и Qwen2.5-Turbo показали идеальные результаты, а 7B-модель справилась с минимальными ошибками. Однако эти тесты оценивают скорее извлечение информации, чем глубокое понимание текста.
Преимущества и тестирование
Хотя большие окна контекста проще и удобнее в использовании, они пока уступают архитектурам RAG (retrieval-augmented generation), которые обращаются к внешним базам данных и эффективно работают с контекстами до 128,000 токенов.
В сложных тестах, таких как RULER, LV-Eval и LongbenchChat, модели Qwen с окном в миллион токенов обошли аналоги с 128K, особенно при обработке последовательностей длиннее 64K. 14B-модель впервые в линейке Qwen набрала более 90 баллов в RULER, опередив GPT-4o mini по многим параметрам. При этом в работе с короткими текстами модели с миллионом токенов не уступают версиям с меньшими окнами.
Попробовать новые модели Qwen можно через Qwen Chat — аналог ChatGPT от Alibaba, или на Hugging Face. Вместе с моделями компании Deepseek, Qwen составляет конкуренцию американским разработчикам, предлагая схожие возможности по более доступной цене.