典型文献
基于多流卷积和数据增强的声场景分类方法
文献摘要:
针对单特征输入时,现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强的基本原理;其次,基于网络并行输入理论,设计了一种多流卷积神经网络模型以期实现多流特征融合,其由特征提取模块和特征融合模块组成;然后,为进一步提升模型的准确率并降低模型过拟合的概率,提出了一种多维混合数据增强方法以实现特征数据的平滑处理;最后,采用9种特征组合方案,基于Urbansound8K,ESC50和ESC10数据集分别开展了声场景分类实验.实验结果表明:模型的准确率分别为88.29%,77.75%和96.25%,验证了当使用该方法进行声场景分类研究时,模型具有较高的准确率和较强的泛化能力.
文献关键词:
声场景分类;多流特征融合;多流卷积神经网络;过拟合;多维混合数据增强
中图分类号:
作者姓名:
曹毅;费鸿博;李平;张小勇
作者机构:
江南大学机械工程学院,江苏无锡214122;江南大学江苏省食品先进制造装备技术重点实验室,江苏无锡214122
文献出处:
引用格式:
[1]曹毅;费鸿博;李平;张小勇-.基于多流卷积和数据增强的声场景分类方法)[J].华中科技大学学报(自然科学版),2022(04):40-46
A类:
多流卷积神经网络,多流特征融合,多维混合数据增强,ESC50,ESC10
B类:
声场景分类,分类方法,有声,方法分类,分类准确率,泛化能力,输入理论,卷积神经网络模型,取模,特征融合模块,过拟合,增强方法,特征数据,平滑处理,特征组合,组合方案,Urbansound8K,分类研究
AB值:
0.179869
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。