Pruna AI, европейский стартап, работающий над алгоритмами сжатия для ИИ-моделей, сделал свою платформу оптимизации с открытым исходным кодом.
Платформа Pruna AI предлагает методы повышения эффективности, такие как кэширование, обрезка, квантизация и дистилляция, для настройки ИИ-моделей.
«Мы также стандартизируем сохранение и загрузку сжатых моделей, применение различных методов сжатия, а также оценку сжатых моделей», — рассказал сооснователь и технический директор Прюна AI Джон Рачван.
Платформа помогает оценить, пострадало ли качество после сжатия модели и насколько увеличилась производительность.
«Если использовать метафору, мы занимаемся тем же, чем Hugging Face для трансформеров и диффузеров — стандартизируем их использование, сохранение и загрузку. Мы делаем тоже самое, но для методов повышения эффективности», — добавил Рачван.
Крупные лаборатории ИИ, такие как OpenAI, уже применяют подобные методы. Например, OpenAI использует дистилляцию для создания более быстрых версий своих моделей, таких как GPT-4 Turbo.
Компании обычно разрабатывают подобные решения «внутри компании», но Pruna AI предоставляет инструмент, объединяющий все методы и упрощающий их использование.
Pruna AI поддерживает разные типы моделей, от больших языковых моделей до моделей генерации изображений и видео. Компания сейчас особенно сосредоточена на последних.
Среди пользователей Pruna AI — Scenario и PhotoRoom. В дополнение к версии с открытым исходным кодом существует корпоративная версия с расширенными функциями оптимизации.
«Наиболее захватывающая функция — это агент сжатия. Вы просто говорите агенту, что хотите больше скорости без снижения точности более чем на 2%, и он все сделает сам», — отмечает Рачван.
Pruna AI берет плату за про-версию, как за аренду GPU. Оптимизация позволяет существенно сэкономить на работе модели.
Стартап недавно привлек 6,5 миллиона долларов в рамках раунда с участием EQT Ventures, Daphni, Motier Ventures и Kima Ventures.