Google выпустила LMEval — open-source платформу для оценки крупных языковых и мультимодальных моделей. Она позволяет быстро и удобно сравнивать ИИ, такие как GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash и Llama-3.1-405B.
LMEval стандартизирует процесс тестирования. Разработчики могут проводить оценку разных моделей с помощью одного набора тестов, не зависимо от используемых API и форматов данных.
Инструмент поддерживает тесты для текста, изображений и кода. Можно легко добавлять новые форматы входных данных. Система справляется с разными типами заданий: от простых вопросов да/нет до генерации текста и выбора вариантов ответа.
LMEval определяет уклончивые ответы моделей, которые обходят проблемные или рискованные темы.
Все результаты хранятся в зашифрованной локальной базе данных. Они не будут доступны поисковым системам.
LMEval работает на базе LiteLLM. Это упрощает тестирование моделей от разных компаний — поддерживаются API Google, OpenAI, Anthropic, Ollama и Hugging Face. Нет необходимости переписывать тесты.
Одна из ключевых функций — инкрементальное тестирование. При добавлении нового вопроса или модели пересчитываются только недостающие данные. Это экономит время и ресурсы.
Система использует многопоточность для ускорения тестирования.
В комплекте идет LMEvalboard – инструмент визуализации. Он строит графики и позволяет детально анализировать результаты, сравнивать модели и искать ошибки.
Исходный код и примеры доступны на GitHub.