收藏本站
《哈尔滨工业大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

复杂场景下的音频自动标注方法

张立赛  
【摘要】:当前我国的人工智能技术进入快速发展的阶段,其中音频和语音作为智能设备与外界和人类进行交互的重要接口而受到来自于政府、产业界与学术界的广泛关注。国务院提出了人工智能发展规划,指出我国将在教育、医疗、养老、环境保护、城市运行等领域广泛应用人工智能技术。音频数据的自动标注技术将为这些业务提供有效的服务。然而这些实际应用场景中的声场构成往往非常复杂,通常含有多种声源和不同程度的噪声干扰,因此在实际应用中通过复杂场景下的音频自动标注方法来为智能系统提供声音模态的信息具有迫切的需求。当前对于复杂场景下的音频数据往往缺乏统一有效的数据处理流程和模型。因此本课题针对复杂场景下的音频自动标注任务开展了研究。针对复杂场景下的音频数据的性质,我们首先提出了一种复杂场景下的音频数据处理流程。对复杂场景下的音频数据进行时域和频域的详细分析,发现音频中从时间维度和频率维度上都存在着音频类别的信息,且这些模式存在不确定性,并发现大量音频数据中存在着非活动片段,对数据集中类别和音频文件时长的分布进行分析后发现音频类别不平衡的问题。基于这些信息设计了音频的处理流程,包括音频活动检测和基于活动检测的噪音去除,提出多种用于音频数据的扩张方法和数据集过采样的数据处理方法。通过实验对比证明了数据处理流程设计对于复杂场景下的音频标注任务性能具有明显的提升。针对音频中信息在时域和频域上的分布具有多形态的特点,提出了自注意Inception LDNN模型。对数据的研究中发现音频类别相关的信息在时间分布上不均匀,在频域上的模式也较为多样化。基于这两个结论研究设计了含有注意力机制和多种尺寸卷积的深度学习音频自动标注模型,并在实验中对这两种改进和模型整体的性能进行了评价分析,确定该模型取得了明显优于对比方法的预测效果。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18

【相似文献】
中国期刊全文数据库 前10条
1 买热木沙·托呼提;;音频编辑软件在音频降噪方面的应用[J];电视指南;2017年08期
2 田劲;;多媒体会议中音频处理单元的设计与实现[J];武汉理工大学学报;2009年15期
3 张玉奇,陈树宝,孙锟,王荣发,刘斌,王威琪,汪源源,倪金洪,高玲玲,郁怡;应用音频处理系统无创自动估测肺动脉压的研究[J];中国超声医学杂志;1999年05期
4 王祖立 ,邬惠林;YC-2K型音频处理装置[J];广播与电视技术;1988年04期
5 于寅虎;;音频处理技术随便携式电子产品需求发展[J];电子产品世界;2009年12期
6 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(一)[J];电子产品世界;2008年08期
7 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(3)[J];电子产品世界;2008年11期
8 刘毓敏;用好Adobe Premiere中的音频处理工具[J];实用影音技术;2005年02期
9 张秀常;;音频处理任我行[J];浙江教育技术;2013年04期
10 ;2013年是音频处理系统去整合化的转折之年[J];电子产品世界;2012年07期
中国重要会议论文全文数据库 前5条
1 廉明涛;;音频处理在中波转播台的应用[A];2005年广播电视技术论文汇编[C];2005年
2 王兴国;蒋伟峰;刘济林;顾伟康;;现代音频处理的DSP方案[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 赵侠;刘志刚;;音频响度分析研究[A];天津市电子工业协会2018年年会论文集[C];2018年
4 吴烁宇;;基于C-SKY CPU的音频处理SoC设计[A];《IT时代周刊》2013年度论文集[C];2013年
5 杨伟斌;;基于以太网的音频传输技术比较及应用[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(三等奖)[C];2014年
中国重要报纸全文数据库 前10条
1 ;音频处理[N];电脑报;2001年
2 ;体验X-Ripper录制音乐[N];电脑报;2002年
3 木哥;闪亮的音乐精灵[N];计算机世界;2002年
4 甄书秀;手机突围支点:创新和速度[N];中国质量报;2006年
5 ;Analog Devices 公司发布SoundMAX2.0系统[N];中国高新技术产业导报;2001年
6 ;德州仪器推出全新DSP[N];人民邮电;2006年
7 屈歌;谨防听录音的“陷阱”[N];音乐周报;2015年
8 本报记者 黄志昕;Intel革命,DIY没命?[N];计算机世界;2004年
9 记者  母晓洁;DTS:拓展中国市场水到渠成[N];中国电子报;2006年
10 王新禧;APE音乐还原高品质CD[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前1条
1 郑贤中;高指向性音频声波理论与控制研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 朱田恬;复杂场景下的音频序列切分方法的研究[D];哈尔滨工业大学;2018年
2 范苍宁;基于音频内容重复性的广播广告检测[D];哈尔滨工业大学;2018年
3 张立赛;复杂场景下的音频自动标注方法[D];哈尔滨工业大学;2018年
4 冯婷婷;基于神经网络的音乐音频自动合成的研究与实现[D];吉林大学;2018年
5 于晨晨;安全监控中音频事件检测的关键问题研究[D];北京邮电大学;2018年
6 王一平;一种基于大数据的VoIP音频溯源方法的研究与实现[D];北京邮电大学;2018年
7 李召;基于安卓音频口通信的多参生理采集系统设计[D];河北大学;2017年
8 欧阳娣;基于嵌入式的音频处理和播放系统的设计[D];中南大学;2013年
9 冷娇娇;钢琴乐音的音频分割算法研究[D];武汉工程大学;2016年
10 张学波;基于DSP的视频音频处理系统设计与研究[D];西安电子科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合