收藏本站
《哈尔滨工业大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

复杂场景下的音频序列切分方法的研究

朱田恬  
【摘要】:复杂场景下的音频序列切分是对音频做深度处理的基础和前提,对音频后续处理工作具有重要的影响。在许多实际应用的场景中,如语音识别系统、说话人识别系统和语音自动标注系统等,首要任务是对输入语音信号进行精确检测,找出语音段的起始和终止点。目前很多音频分割的研究工作面向纯净的语音信号展开,但是对于含有背景噪音的音频无法做出准确的分割。针对研究工作的需要,构建了复杂场景下的音频序列数据集。通过对采集到的复杂场景下的中小学教学音频数据进行数据预处理和规范化标注等工作,完成构建了共计时长62.32小时的语音语料,为复杂场景的音频序列切分任务的研究奠定了数据基础。针对复杂场景下的音频序列切分问题,完成了两种音频切分模型的构建,分别是基于深度学习的单一模型以及基于深度学习和贝叶斯信息选择的混合模型。单一模型以深度残差网络(Res Net)为模型结构,由于声学特征以语谱图的形式呈现,考虑到深度残差网络在图像处理中的优异性能,我们将深度残差网络引入语音的切分任务中,并在已有的复杂场景数据集和纯净的公开数据集上分别开展实验,通过三种深度学习模型和两种机器学习模型的对比实验结果验证了深度残差网络在该任务上的优越性。混合模型结合了双向长短时记忆网络(Bi LSTM)、深度残差网络(Res Net)和贝叶斯信息选择(BIC)三种模型方法各自的优势,弥补了单一模型的不足,对语音信号做了更精确的切分,并且对比分析了单一模型和混合模型各自的优劣势和适用场景。根据上述两种模型的预测结果,实现了对于给定音频输入文件给出切分后的多个音频片段的复杂场景下的音频序列自动切分系统。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TN912.3

【相似文献】
中国期刊全文数据库 前10条
1 买热木沙·托呼提;;音频编辑软件在音频降噪方面的应用[J];电视指南;2017年08期
2 田劲;;多媒体会议中音频处理单元的设计与实现[J];武汉理工大学学报;2009年15期
3 张玉奇,陈树宝,孙锟,王荣发,刘斌,王威琪,汪源源,倪金洪,高玲玲,郁怡;应用音频处理系统无创自动估测肺动脉压的研究[J];中国超声医学杂志;1999年05期
4 王祖立 ,邬惠林;YC-2K型音频处理装置[J];广播与电视技术;1988年04期
5 于寅虎;;音频处理技术随便携式电子产品需求发展[J];电子产品世界;2009年12期
6 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(一)[J];电子产品世界;2008年08期
7 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(3)[J];电子产品世界;2008年11期
8 刘毓敏;用好Adobe Premiere中的音频处理工具[J];实用影音技术;2005年02期
9 张秀常;;音频处理任我行[J];浙江教育技术;2013年04期
10 ;2013年是音频处理系统去整合化的转折之年[J];电子产品世界;2012年07期
中国重要会议论文全文数据库 前5条
1 廉明涛;;音频处理在中波转播台的应用[A];2005年广播电视技术论文汇编[C];2005年
2 王兴国;蒋伟峰;刘济林;顾伟康;;现代音频处理的DSP方案[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 赵侠;刘志刚;;音频响度分析研究[A];天津市电子工业协会2018年年会论文集[C];2018年
4 吴烁宇;;基于C-SKY CPU的音频处理SoC设计[A];《IT时代周刊》2013年度论文集[C];2013年
5 杨伟斌;;基于以太网的音频传输技术比较及应用[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(三等奖)[C];2014年
中国重要报纸全文数据库 前10条
1 ;音频处理[N];电脑报;2001年
2 ;体验X-Ripper录制音乐[N];电脑报;2002年
3 木哥;闪亮的音乐精灵[N];计算机世界;2002年
4 甄书秀;手机突围支点:创新和速度[N];中国质量报;2006年
5 ;Analog Devices 公司发布SoundMAX2.0系统[N];中国高新技术产业导报;2001年
6 ;德州仪器推出全新DSP[N];人民邮电;2006年
7 屈歌;谨防听录音的“陷阱”[N];音乐周报;2015年
8 本报记者 黄志昕;Intel革命,DIY没命?[N];计算机世界;2004年
9 记者  母晓洁;DTS:拓展中国市场水到渠成[N];中国电子报;2006年
10 王新禧;APE音乐还原高品质CD[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前1条
1 郑贤中;高指向性音频声波理论与控制研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 朱田恬;复杂场景下的音频序列切分方法的研究[D];哈尔滨工业大学;2018年
2 范苍宁;基于音频内容重复性的广播广告检测[D];哈尔滨工业大学;2018年
3 张立赛;复杂场景下的音频自动标注方法[D];哈尔滨工业大学;2018年
4 冯婷婷;基于神经网络的音乐音频自动合成的研究与实现[D];吉林大学;2018年
5 于晨晨;安全监控中音频事件检测的关键问题研究[D];北京邮电大学;2018年
6 王一平;一种基于大数据的VoIP音频溯源方法的研究与实现[D];北京邮电大学;2018年
7 李召;基于安卓音频口通信的多参生理采集系统设计[D];河北大学;2017年
8 欧阳娣;基于嵌入式的音频处理和播放系统的设计[D];中南大学;2013年
9 冷娇娇;钢琴乐音的音频分割算法研究[D];武汉工程大学;2016年
10 张学波;基于DSP的视频音频处理系统设计与研究[D];西安电子科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合