Gemini 2.5 Pro от Google обошел OpenAI o3 в обработке текстов

Google Gemini 2.5 Pro показал лучший результат в бенчмарке Fiction.Live для работы с большими и сложными текстами.

Этот тест проверяет, насколько языковые модели могут понять и точно воспроизвести сложные истории и контексты. Это выходит за рамки простых поисковых задач, как в тесте “Needle in the Haystack”.

По данным Fiction.Live, модель o3 от OpenAI работает наравне с Gemini 2.5 Pro до объёма в 128 000 токенов (около 96 000 слов). Но начиная с 192 000 токенов (примерно 144 000 слов), o3 резко теряет качество. В то же время Gemini 2.5 Pro (июньская версия preview-06-05) остаётся стабильной при этой длине текста.

Тем не менее, протестированные объёмы информации — значительно меньше одного миллиона токенов, который Google заявляет как максимум Gemini 2.5 Pro. С увеличением окна точность Gemini понижается. Для сравнения, максимальный размер окна у o3 от OpenAI составляет сейчас 200 000 токенов.

Компания Meta заявляет о 10 миллионах токенов для Llama 4 Maverick, но на практике модель теряет полезную информацию в сложных задачах с длинным контекстом, что делает её малоэффективной.

Большие окна контекста не гарантируют лучшие результаты, даже если модель умеет их использовать. Николай Савинов из Google DeepMind говорит: «Когда модели скармливают много данных, возникает эффект “что вложил, то получил” — слишком много нерелевантной информации снижает качество вывода.» 

Савинов советует по возможности убирать ненужную информацию из контекста. Пока идут испытания новых моделей, разумнее выбирать только полезные данные.

Свежие исследования подтверждают: ИИ пока плохо работает с длинным контекстом. Даже если модель способна читать большие документы вроде длинных PDF, пользователям лучше заранее удалять лишние страницы — например, вводные секции, не относящиеся к задаче.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai