Perch 2.0 от Google превзошла ИИ для звуков китов

Исследователи Google Deepmind и Google Research показали, что их универсальная биокустическая модель Perch 2.0, обученная в основном на записях птиц, стабильно обходила специализированные модели для анализа звуков китов. Авторы работы связывают это с эффектами масштабирования нейросетей и особенностями эволюции.

Подводное поведение китов и дельфинов изучают по звукам, потому что визуальные наблюдения часто невозможны. Создание устойчивых моделей ИИ для подводной акустики затруднено: нужны дорогие датчики, а новые типы сигналов иногда привязывают к виду только спустя десятилетия после первой записи.

Perch 2.0 содержит 101,8 млн параметров и обучалась на более чем 1,5 млн записей звуков животных минимум от 14 500 видов. Основу набора составляют птицы, также есть насекомые, млекопитающие и амфибии. Подводных данных почти нет: по данным статьи, в обучении участвовало лишь около десятка записей китов, в основном сделанных на телефоны над поверхностью воды.

Для проверки работы «птичьей» модели на подводных данных команда использовала три корпуса:

  • NOAA PIPAN — звуки разных усатых китов в Тихом океане;
  • ReefSet — шумы рифов, включая треск и рычание;
  • DCLDE 2026 — более 200 000 размеченных звуков касаток и горбатых китов.

Perch 2.0 преобразует каждую запись в компактное числовое представление (эмбеддинг). Затем на этих эмбеддингах обучается простой классификатор, которому достаточно небольшого числа размеченных примеров для отнесения звука к виду или категории.

Исследователи сравнили Perch 2.0 с шестью другими моделями, включая Google Multispecies Whale Model (GMWM), специально обученную на записях китов. Качество оценивали по метрике AUC-ROC, где 1,0 означает идеальное разделение классов.

Perch 2.0 заняла первое или второе место почти во всех задачах. При распознавании разных популяций касаток по звукам модель получила AUC-ROC 0,945, тогда как специализированная модель китов — 0,821. В задаче классификации подводных звуков Perch 2.0 достигла 0,977 против 0,914 у GMWM, при этом использовалось только 16 обучающих примеров на класс.

Разрыв усилился, когда GMWM применяли напрямую как готовый классификатор, без дообучения через трансферное обучение: в таком режиме её результат упал до 0,612 по AUC-ROC. Авторы предполагают, что модель переобучилась на особенности конкретных микрофонов или другие артефакты исходных записей. В итоге сильная узкая специализация может снижать способность модели обобщать знания.

Команда предлагает три объяснения успешной передачи навыков между такими разными задачами. Первое — масштабирование нейросетей: большие модели с большим обучающим датасетом лучше обобщают, включая задачи за пределами исходной сферы.

Второе объяснение получило название «урок выпи» (bittern lesson) — игра слов с названием птицы выпь и известным «горьким уроком» в ИИ. Классификация птиц особенно сложна, потому что отличия между видами минимальны. В одной только Северной Америке есть 14 видов голубей с едва различимыми по тону и ритму воркованиями. Модель, способная стабильно улавливать такие тонкие контрасты, осваивает признаки, которые затем годятся и для совсем других акустических задач.

Третье объяснение касается эволюционной биологии: птицы и морские млекопитающие независимо пришли к сходным механизмам звукообразования, известным как миоэластико-аэродинамический механизм. Общая физическая основа может объяснять, почему выученные акустические признаки легко переносятся между разными группами животных.

Практический эффект заключается в подходе, который авторы называют «гибкое моделирование». Пассивные акустические данные переводятся в векторные представления и сохраняются в базе, а простые линейные классификаторы поверх уже рассчитанных эмбеддингов можно обучить за считаные часы. Это важно для морской биоакустики, где постоянно появляются новые типы сигналов. Например, загадочный звук «biotwang» лишь недавно связали с китами Брайда.

Google предлагает полноценный учебный пример в Google Colab и выкладывает инструменты Perch 2.0 на GitHub.

Модель Google Multispecies Whale Model для обнаружения нескольких видов китов была представлена в 2024 году. Perch 2.0 как более широкая биокустическая базовая модель вышла в августе 2025 года.

Источник: The Decoder.

Оцените статью
Gimal-Ai