Google DeepMind携手Google Research,共同推出了Perch 2.0,进一步推动了生物声学研究的新高度。与前代相比,Perch 2.0以物种分类为核心任务,不仅吸纳了更多非鸟类类群的训练数据,还采用了创新的数据增强策略与训练目标,在BirdSET和BEANS两项权威生物声学基准测试中均刷新了当前的最佳记录。
生物声学作为连接生物学与生态学的重要工具,在生物多样性保护与监测中扮演着关键角色。早期研究多依赖模板匹配等传统信号处理手段,但在复杂自然声学环境与大规模数据面前,逐渐暴露效率低下、准确性不足的局限。
近年来,随着人工智能技术的飞速发展,深度学习等方法开始取代传统手段,成为生物声学事件检测与分类的核心工具。例如,基于大规模带标签鸟类声学数据训练的BirdNET模型,在鸟类声纹识别中表现出色:不仅能精准区分不同物种的鸣叫,还能在一定程度上实现个体识别。此外,Perch 1.0等模型通过持续优化迭代,在生物声学领域积累了丰富成果,为生物多样性监测与保护提供了坚实的技术支撑。
最新推出的Perch 2.0不仅以物种分类为核心任务,还纳入了更多非鸟类类群的训练数据,并采用全新的数据增强策略与训练目标。该模型在BirdSET和BEANS两项权威生物声学基准测试中均刷新了当前的最佳记录,彰显出强大的性能潜力与广阔的应用前景。
相关研究成果以「Perch 2.0: The Bittern Lesson for Bioacoustics」为题,已在arXiv上发布预印本。
该研究为模型训练整合了4个带标签音频数据集——Xeno-Canto、iNaturalist、Tierstimmenarchiv和FSD50K,共同构成模型学习的基础数据支撑。这些数据集涵盖了大量鸟类及其他生物的声学录音,确保了模型的深度学习效果。
这些数据集共包含14,795个类别,其中14,597个为物种,其余198个为非物种声音事件。丰富的类别覆盖既保证了生物声学信号的深度学习,又通过非鸟类声音数据拓展了模型的适用范围。研究团队还通过人工映射统一了类别名称,并剔除了无法用选定频谱图参数表示的蝙蝠录音,以确保数据的一致性与适用性。
考虑到不同数据源的录音时长差异极大(从不足1秒到超过1小时,多数在5–150秒),而模型固定以5秒片段为输入,研究团队设计了两种窗口选取策略:随机窗口策略在选中某条录音时随机截取5秒;能量峰值策略则通过小波变换选出录音中能量最强的6秒区域,再从中随机选取5秒。这两种方法均能有效提升样本的有效性。
为进一步提升模型对复杂声学环境的适应能力,研究团队采用了mixup的数据增强变体。该方法通过混合多条音频窗口生成复合信号,确保窗口内所有发声都能被高置信度识别。
模型评估则依托BirdSet与BEANS两大权威基准展开。
Perch 2.0的模型架构由前端(frontend)、嵌入网络(embedding model)和一组输出头(output heads)共同构成。前端负责将原始音频转换为模型可处理的特征形式;嵌入网络采用EfficientNet-B3架构;输出头则负责具体的预测与学习任务。
模型训练通过3个独立目标实现端到端优化:物种分类交叉熵、自蒸馏机制和来源预测。训练分两阶段进行:第一阶段专注训练原型学习分类器;第二阶段启动自蒸馏。超参数选择依托Vizier算法。
评估核心原则是验证「冻结嵌入网络」的有效性。通过几何均值计算得分,最终19个子数据集的结果反映了模型的真实可用性。
在生物声学与人工智能交叉领域,跨类群迁移学习、自监督目标设计、固定嵌入网络优化等研究方向已引发全球学术界与企业界的广泛探索。
剑桥大学团队开发的余弦距离虚拟对抗训练(CD-VAT)技术、麻省理工学院与CETI合作的抹香鲸声纹研究、苏黎世联邦理工学院研发的光声成像技术、开源项目BirdNET以及日本Hylable公司在日比谷公园部署的AI鸟鸣识别系统等技术都在推动这一领域的进步。
这些探索正在让生物声学与人工智能的结合变得更有温度。当学术探索的深度遇上产业应用的广度,那些曾藏在雨林树冠、深海暗礁里的生命信号正被更清晰地捕捉、解读。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439253.html