LAION и Intel представили Empathic Insight — открытый проект, который помогает нейросетям лучше понимать эмоции человека. В набор входят модели и датасеты для анализа изображений лиц и аудиофайлов. Система оценивает силу 40 разных эмоций: для лиц по шкале от 0 до 7, для голосов — в градациях “нет”, “слабо выражено” или “ярко выражено”.
В основе лежит модель EmoNet, использующая классификацию эмоций из “Handbook of Emotions”. Разработчики расширили базовый набор эмоций, добавив состояния внимания, физическую боль, усталость и социальные эмоции — например, стыд и гордость. Авторы утверждают: “Эмоции не универсальны — мозг формирует их из множества сигналов”. Поэтому модели делают вероятностные оценки, а не присваивают жёсткие метки.
Для обучения использовали 203 тысячи лицевых изображений и 4 692 аудиозаписи. Голосовые данные взяты из набора Laion’s Got Talent: 5 000 часов синтетической речи на английском, немецком, испанском и французском, созданной моделью GPT-4o от OpenAI.
LAION использовал полностью синтетические данные для защиты приватности и расширения разнообразия. Изображения генерировали text-to-image моделями (Midjourney, Flux), программно изменяя возраст, пол и этническую принадлежность героев. Все аудио прослушивали специалисты с психологическим образованием, в датасет попадали только совпадающие оценки трёх независимых экспертов.
По данным LAION, Empathic Insight превосходит конкурентов по результатам тестов. На бенчмарке EmoNet Face HQ модель Empathic Insight показала лучшую схожесть с мнением психологов, чем Gemini 2.5 Pro и закрытые сервисы вроде Hume AI. Ключевой метрикой была близость оценки ИИ к экспертам.
В задачах анализа эмоций по голосу Empathic Insight Voice также обошёл прошлые решения. Модель точно распознала все 40 категорий эмоций на бенчмарке EmoNet Voice. Команда тестировала разные размеры моделей и методы обработки аудио для лучших результатов.
LAION разработал и BUD-E Whisper — улучшенную версию Whisper от OpenAI. Она не только расшифровывает речь в текст, но и добавляет структурированное описание эмоциональной окраски, фиксирует смех или вздохи, а также оценивает возраст и пол говорящего.
Все модели EmoNet доступны по лицензии Creative Commons, код — по Apache 2.0. Скачать датасеты и модели можно на Hugging Face. Доступны версии Small и Large для разных задач и оборудования.
Intel поддерживает проект с 2021 года по своей стратегии развития открытого ИИ, помогая оптимизировать модели под своё оборудование.