世良情感网

[LG]《Perch 2.0: The Bittern Lesson for B

[LG]《Perch 2.0: The Bittern Lesson for Bioacoustics》B v Merriënboer, V Dumoulin, J Hamer, L Harrell... [Google DeepMind] (2025)

Perch 2.0:面向生物声学的高性能预训练模型,突破性扩展至多类群数据,兼具精准分类与强大迁移学习能力。

• 训练数据涵盖近1500万条录音,跨越鸟类、两栖类、昆虫、哺乳类及其它动物声音,标签细腻达14,795个类别。

• 采用EfficientNet-B3架构,结合多源混合音频增强及自蒸馏技术,通过原型学习分类器生成软标签,提升模型泛化能力。

• 引入“源预测”辅助任务,强化对录音来源识别,提升嵌入向量的判别力与迁移适应性。

• 在BirdSet与BEANS生物声学基准测试中实现最先进性能,且在海洋生物迁移任务上超越专门海洋模型,尽管训练时几乎无海洋数据。

• 线性探测即用,适合资源有限环境,支持快速聚类、最近邻检索及少样本学习,极大降低下游任务的计算与标注成本。

• 发现细粒度物种分类任务极大促进了模型迁移能力,说明丰富、精准的标签体系是生物声学预训练的关键。

• 研究指出监督学习在生物声学领域仍处主导地位,现有自监督方法尚难超越经过精心设计的监督模型。

将生物声学嵌入普适化、轻量化与高效化,Perch 2.0为生态监测、物种保护等应用提供强大技术支撑。

了解详情🔗 arxiv.org/abs/2508.04665

生物声学机器学习迁移学习深度学习生态监测人工智能