收藏本站
《南京大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

面向场景理解的视、听觉媒体内容处理与分析方法研究

翁炀冰  
【摘要】:自然场景分析与理解是与人类生活密切相关的研究领域,主要包含听觉场景和视觉场景两类最为重要的组成部分。在听觉场景理解中,基于内容的音频信息摘要工作为分析音频语义信息提供着可靠的线索,是音频研究领域的重要环节;在视觉场景理解问题中,文本则是重要的语义载体,文本信息提取和理解也因此逐渐成为视觉内容理解的关键之一。本文首先提出了一种多源音频场景下的基于检测声音事件和场景变化的音频摘要方法。该方法首先检测固有声音空间中发生变化的位置对音频流进行粗略的分割,并利用一个自适应的算法调整音频分割点的位置;然后,通过谱聚类的方法将相似音频分割片段聚类,得到不同的音频事件,并识别出其中的背景音频事件、前景音频事件和关键音频事件;最后,结合上下文模型来帮助发现并标识音频事件之间的语义关系,从而得到摘要。该方法的有效性在来自多种类型的电影电视音频数据中得到了印证,在音频摘要提取上取得了很好的性能。鉴于视频帧中文本信息模糊的问题会给文字检测和识别造成一定程度的困扰,我们提出了一种用于模糊视频文本信息增强的多光谱融合方法。该方法首先把输入视频帧分别转化为灰度图、R值图、G值图和B值图,并分别进行局部区域的增强。然后,我们将四个通道的增强图按照多种规则融合成五幅中间图。我们用取中值的方法将这五幅中间图进行融合,得到融合-1增强图。进一步地,我们将五幅中间图分别用k等于2的k-means方法转化成五幅二值图,并按照中值规则进行再次融合,得到最后的融合-2增强图。在多来源退化视频帧数据上的实验结果表明,该方法在一定程度上可以有效地增强退化图片中的文本信息,提高文字检测与识别的结果。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TN912.3

【相似文献】
中国期刊全文数据库 前10条
1 买热木沙·托呼提;;音频编辑软件在音频降噪方面的应用[J];电视指南;2017年08期
2 田劲;;多媒体会议中音频处理单元的设计与实现[J];武汉理工大学学报;2009年15期
3 张玉奇,陈树宝,孙锟,王荣发,刘斌,王威琪,汪源源,倪金洪,高玲玲,郁怡;应用音频处理系统无创自动估测肺动脉压的研究[J];中国超声医学杂志;1999年05期
4 王祖立 ,邬惠林;YC-2K型音频处理装置[J];广播与电视技术;1988年04期
5 于寅虎;;音频处理技术随便携式电子产品需求发展[J];电子产品世界;2009年12期
6 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(一)[J];电子产品世界;2008年08期
7 David Katz;Rick Gentile;Tomasz Lukasiak;;嵌入式音频处理基础(3)[J];电子产品世界;2008年11期
8 刘毓敏;用好Adobe Premiere中的音频处理工具[J];实用影音技术;2005年02期
9 张秀常;;音频处理任我行[J];浙江教育技术;2013年04期
10 ;2013年是音频处理系统去整合化的转折之年[J];电子产品世界;2012年07期
中国重要会议论文全文数据库 前5条
1 廉明涛;;音频处理在中波转播台的应用[A];2005年广播电视技术论文汇编[C];2005年
2 王兴国;蒋伟峰;刘济林;顾伟康;;现代音频处理的DSP方案[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 赵侠;刘志刚;;音频响度分析研究[A];天津市电子工业协会2018年年会论文集[C];2018年
4 吴烁宇;;基于C-SKY CPU的音频处理SoC设计[A];《IT时代周刊》2013年度论文集[C];2013年
5 杨伟斌;;基于以太网的音频传输技术比较及应用[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(三等奖)[C];2014年
中国重要报纸全文数据库 前10条
1 ;音频处理[N];电脑报;2001年
2 ;体验X-Ripper录制音乐[N];电脑报;2002年
3 木哥;闪亮的音乐精灵[N];计算机世界;2002年
4 甄书秀;手机突围支点:创新和速度[N];中国质量报;2006年
5 ;Analog Devices 公司发布SoundMAX2.0系统[N];中国高新技术产业导报;2001年
6 ;德州仪器推出全新DSP[N];人民邮电;2006年
7 屈歌;谨防听录音的“陷阱”[N];音乐周报;2015年
8 本报记者 黄志昕;Intel革命,DIY没命?[N];计算机世界;2004年
9 记者  母晓洁;DTS:拓展中国市场水到渠成[N];中国电子报;2006年
10 王新禧;APE音乐还原高品质CD[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前1条
1 郑贤中;高指向性音频声波理论与控制研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 翁炀冰;面向场景理解的视、听觉媒体内容处理与分析方法研究[D];南京大学;2016年
2 冯婷婷;基于神经网络的音乐音频自动合成的研究与实现[D];吉林大学;2018年
3 朱田恬;复杂场景下的音频序列切分方法的研究[D];哈尔滨工业大学;2018年
4 范苍宁;基于音频内容重复性的广播广告检测[D];哈尔滨工业大学;2018年
5 张立赛;复杂场景下的音频自动标注方法[D];哈尔滨工业大学;2018年
6 李琪;基于深度学习的音频场景识别方法研究[D];西安电子科技大学;2018年
7 张迪昌;云存储环境下基于音频字的盗版视频检测方案的设计与实现[D];湖南大学;2017年
8 段正国;音乐情感检索下音频感知哈希方法的研究[D];湖南大学;2014年
9 廖伟鸿;手机有声读物系统设计与实现[D];湖南大学;2016年
10 于晨晨;安全监控中音频事件检测的关键问题研究[D];北京邮电大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合