Исследователи Google Deepmind выпустили обновление Perch 2.0, предназначенной для акустического наблюдения звуками диких животных. Если первая версия была обучена только для распознавания звуков птиц, то в обновлении идею расширили до звуков птиц, млекопитающих, амфибий, а также антропогенных и общих звуков дикого мира.
Нейросеть обучили на данных Xeno-Canto, iNaturalist, Tierstimmenarchiv и FSD50K. Всего в наборе более 14,7 тыс. классов звуков, из них 14 597 — звуки видов животных и 198 — общие звуки. Архитектура основана на EfficientNet-B3, благодаря чему модель можно запускать потребительском железе без дорогостоящих GPU.Архитектура модели
Perch принимает на вход 5-секундную аудиозапись и на выходе выдаёт вектор, с помощью которого можно определить, какие животные звучат на записи. В бенчмарках BirdSet и BEANS нейросеть опережает решения конкурентов. Также выяснилось, что модель можно перенести для распознавания звуков морских животных. Примечательно, что в наборе обучающих данных не было таких звуков.Результаты бенчмарков
Биологи уже используют Perch в своей работе:
Организация BirdLife Australia и Австралийская акустическая обсерватория создали классификатор для наблюдения за звуками уникальных видов. Например, учёным удалось обнаружить новую популяцию австралийского странника рядом с Мельбурном.
Исследователи биоакустической лаборатории LOHE при Гавайском университете с помощью Perch ускорили процесс поиска популяций танагров-медоносов. Эти птицы находятся на грани вымирания, но очень важны, как часть гавайской культуры.
Код Perch 2.0 открыт и опубликован на GitHub. Также в репозитории есть инструкция по запуску модели.
Источник новости: habr.com