Google представила LMEval — универсальный инструмент для сравнения ИИ моделей

Google

Google выпустила LMEval — open-source платформу для оценки крупных языковых и мультимодальных моделей. Она позволяет быстро и удобно сравнивать ИИ, такие как GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash и Llama-3.1-405B.

LMEval стандартизирует процесс тестирования. Разработчики могут проводить оценку разных моделей с помощью одного набора тестов, не зависимо от используемых API и форматов данных.

Инструмент поддерживает тесты для текста, изображений и кода. Можно легко добавлять новые форматы входных данных. Система справляется с разными типами заданий: от простых вопросов да/нет до генерации текста и выбора вариантов ответа.

LMEval определяет уклончивые ответы моделей, которые обходят проблемные или рискованные темы.

Все результаты хранятся в зашифрованной локальной базе данных. Они не будут доступны поисковым системам.

LMEval работает на базе LiteLLM. Это упрощает тестирование моделей от разных компаний — поддерживаются API Google, OpenAI, Anthropic, Ollama и Hugging Face. Нет необходимости переписывать тесты.

Одна из ключевых функций — инкрементальное тестирование. При добавлении нового вопроса или модели пересчитываются только недостающие данные. Это экономит время и ресурсы.

Система использует многопоточность для ускорения тестирования.

В комплекте идет LMEvalboard – инструмент визуализации. Он строит графики и позволяет детально анализировать результаты, сравнивать модели и искать ошибки.

Исходный код и примеры доступны на GitHub.

Оцените статью
Gimal-Ai