收藏本站
《西安电子科技大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的音频场景识别方法研究

李琪  
【摘要】:声音中载有关于环境的重要信息,音频场景识别就是通过对环境声音的分析为其添加语义标签,比如沙滩、图书馆等。音频场景识别有众多潜在用途,如军事侦查、智能家居等,具有深远的研究意义。音频场景识别系统由两个模块组成,分别是特征提取和分类器。特征提取模块中人工选择特征处于统治地位,但人工选择特征要求研究者具有专业背景和经验,所以一个性能良好的特征非常难得。另一方面,传统的机器学习和神经网络结构简单,无法解决复杂分类问题,阻碍了音频场景识别的发展。深度学习是一种具有多层感知机的神经网络,在一定条件下能够模拟任何非线性映射,已经在图像识别、机器翻译等领域取得了巨大的成功。在音频场景识别研究中,深度学习一方面可以用作分类器,其更深的网络结构意味着更强大的学习能力;另一方面可以在监督学习下,深度学习可以自动学习音频特征,克服了人工选择特征费时费力且不稳定的缺点。所以本文尝试了多种深度学习模型来解决音频场景识别问题。首先实现了一个基线系统,其音频特征为MFCC,分类器为GMM。系统的平均识别率为70.17%,这个结果作为基于深度学习音频场景识别方法平均识别率的基线。本文研究了DNN和CNN两种深度学习网络用于音频场景识别方法。首先构建了两个基于DNN的识别方法,它们的音频特征分别是MFCC和对数梅尔谱。在这两个网络中用ReLu取代sigmoid作为激活函数减小梯度饱和的机率,并且在网络中加入了dropout层提高网络的泛化能力。这两个方法的平均识别率分别为70.17%和80.27%。随后引入分层分类思想改进了基于对数梅尔谱的DNN方法,通过分析其识别结果的混淆矩阵,将容易混淆的四个场景作为一个大类参与第一次分类,然后再对易混淆场景进行第二次分类,这个方法的识别率为83.33%。接着分别针对对数梅尔谱特征和CQT特征实现了两种基于卷积神经网络的识别方法,为了预防过拟合两种网络中均引入了BN机制,并且使用了L2正则化,两种方法的识别率分别为83.4%和82.71%。然后在基于对数梅尔谱图的CNN识别方法基础上,提取此CNN的中间层网络的输出作为音频特征,分别和SVM及RF组成识别系统,识别结果为83.7%和86.3%。最后实现了一个基于特征融合的识别方法,该网络由两个相似的子网络组成,子网络中只有第一层卷积层的卷积核大小不同。在训练和测试的时候,将音频的对数梅尔谱图同时输入到两个子网络中,然后将两个子网第二个池化层的输出进行拼接组成新的特征输入到softmax层。这种方法的识别结果为84.59%。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TN912.34

【参考文献】
中国期刊全文数据库 前4条
1 朱周华;期望最大(EM)算法及其在混合高斯模型中的应用[J];现代电子技术;2003年24期
2 王雪光,郭艳兵,齐占庆;激活函数对BP网络性能的影响及其仿真研究[J];自动化技术与应用;2002年04期
3 张铃;张钹;;神经网络中BP算法的分析[J];模式识别与人工智能;1994年03期
4 刁云程;大脑视皮层的功能特化——视觉信息中枢加工研究的某些进展[J];生理科学;1984年Z1期
中国硕士学位论文全文数据库 前2条
1 齐晓旭;场景依赖的关键音频事件检测[D];北京邮电大学;2013年
2 赵亮;信号稀疏表示理论及应用研究[D];哈尔滨工程大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 周润娟;蔡金平;胡长新;;基于遗传算法的大学生就业信心指数组合预测[J];西昌学院学报(自然科学版);2015年03期
2 尹宏伟;李凡长;;谱机器学习研究综述[J];计算机科学与探索;2015年12期
3 孙会波;闫宝瑞;信春玲;何亚东;;基于BP神经网络的挤出温升预测[J];塑料;2014年06期
4 戴珂;张少仲;蒋波;白英;王小妹;;基于多层前馈神经网络SPDS算法的地质数据非线性分析问题研究[J];计算机工程与科学;2014年08期
5 王丽萍;张新明;李继伟;张验科;李克飞;;BP网络激活函数选择及在径流预报模型中的应用[J];水力发电学报;2014年01期
6 张少仲;李龙锁;任世军;蒋波;白英;张维石;;BP网络的SPDS算法的局部极小问题分析[J];哈尔滨工业大学学报;2013年11期
7 黄豪;;桥梁风险评估中BP神经网络算法研究[J];福建交通科技;2013年04期
8 张少仲;李龙锁;任世军;蒋波;白英;张维石;;填充函数法改进的BP网络SPDS算法[J];哈尔滨工业大学学报;2013年07期
9 金凯;何野;;视频客流量统计中阈值选取研究[J];微电子学与计算机;2012年08期
10 杨欢;;基于云理论和DEA方法的炮兵轮式指挥车作战效能评估[J];舰船电子工程;2012年06期
中国硕士学位论文全文数据库 前10条
1 李华新;基于稀疏编码的滚动轴承故障预测方法研究[D];桂林电子科技大学;2018年
2 李琪;基于深度学习的音频场景识别方法研究[D];西安电子科技大学;2018年
3 牛志星;基于Weighted PCA和神经网络的LIBS信号降噪问题的研究[D];天津理工大学;2018年
4 朱鹏博;基于属性散射中心模型的多雷达数据融合成像[D];南京理工大学;2018年
5 葛玲玉;太赫兹调频连续波雷达成像算法研究[D];南京理工大学;2018年
6 汪应祥;二维压缩感知改进模型在大规模MIMO系统信道估计中的应用[D];南京邮电大学;2017年
7 曾红庆;压缩感知中贪婪重构算法研究[D];湘潭大学;2017年
8 江涌涛;稀疏约束的探地雷达信号参数反演方法研究[D];南昌大学;2017年
9 朱庆平;基于稀疏表示理论的微弱核辐射信号检测方法研究及实现[D];西南科技大学;2017年
10 王斌;基于协作表示的多时相遥感图像变化检测研究[D];西南交通大学;2017年
【相似文献】
中国期刊全文数据库 前10条
1 买热木沙·托呼提;;音频编辑软件在音频降噪方面的应用[J];电视指南;2017年08期
2 田劲;;多媒体会议中音频处理单元的设计与实现[J];武汉理工大学学报;2009年15期
3 张玉奇,陈树宝,孙锟,王荣发,刘斌,王威琪,汪源源,倪金洪,高玲玲,郁怡;应用音频处理系统无创自动估测肺动脉压的研究[J];中国超声医学杂志;1999年05期
4 王祖立 ,邬惠林;YC-2K型音频处理装置[J];广播与电视技术;1988年04期
5 于寅虎;;音频处理技术随便携式电子产品需求发展[J];电子产品世界;2009年12期
6 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(一)[J];电子产品世界;2008年08期
7 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(3)[J];电子产品世界;2008年11期
8 刘毓敏;用好Adobe Premiere中的音频处理工具[J];实用影音技术;2005年02期
9 张秀常;;音频处理任我行[J];浙江教育技术;2013年04期
10 ;2013年是音频处理系统去整合化的转折之年[J];电子产品世界;2012年07期
中国重要会议论文全文数据库 前5条
1 廉明涛;;音频处理在中波转播台的应用[A];2005年广播电视技术论文汇编[C];2005年
2 王兴国;蒋伟峰;刘济林;顾伟康;;现代音频处理的DSP方案[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 赵侠;刘志刚;;音频响度分析研究[A];天津市电子工业协会2018年年会论文集[C];2018年
4 吴烁宇;;基于C-SKY CPU的音频处理SoC设计[A];《IT时代周刊》2013年度论文集[C];2013年
5 杨伟斌;;基于以太网的音频传输技术比较及应用[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(三等奖)[C];2014年
中国重要报纸全文数据库 前10条
1 ;音频处理[N];电脑报;2001年
2 ;体验X-Ripper录制音乐[N];电脑报;2002年
3 木哥;闪亮的音乐精灵[N];计算机世界;2002年
4 甄书秀;手机突围支点:创新和速度[N];中国质量报;2006年
5 ;Analog Devices 公司发布SoundMAX2.0系统[N];中国高新技术产业导报;2001年
6 ;德州仪器推出全新DSP[N];人民邮电;2006年
7 屈歌;谨防听录音的“陷阱”[N];音乐周报;2015年
8 本报记者 黄志昕;Intel革命,DIY没命?[N];计算机世界;2004年
9 记者  母晓洁;DTS:拓展中国市场水到渠成[N];中国电子报;2006年
10 王新禧;APE音乐还原高品质CD[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前1条
1 郑贤中;高指向性音频声波理论与控制研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 段正国;音乐情感检索下音频感知哈希方法的研究[D];湖南大学;2014年
2 冯婷婷;基于神经网络的音乐音频自动合成的研究与实现[D];吉林大学;2018年
3 朱田恬;复杂场景下的音频序列切分方法的研究[D];哈尔滨工业大学;2018年
4 范苍宁;基于音频内容重复性的广播广告检测[D];哈尔滨工业大学;2018年
5 张立赛;复杂场景下的音频自动标注方法[D];哈尔滨工业大学;2018年
6 李琪;基于深度学习的音频场景识别方法研究[D];西安电子科技大学;2018年
7 张迪昌;云存储环境下基于音频字的盗版视频检测方案的设计与实现[D];湖南大学;2017年
8 于晨晨;安全监控中音频事件检测的关键问题研究[D];北京邮电大学;2018年
9 王一平;一种基于大数据的VoIP音频溯源方法的研究与实现[D];北京邮电大学;2018年
10 李召;基于安卓音频口通信的多参生理采集系统设计[D];河北大学;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合