收藏本站
《西南大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于LDA的情感分类及主题情感变化分析

胡燕  
【摘要】:在互联网以及大数据快速发展的时代,在各种互联网媒体上会产生越来越多的信息,包括评论信息、用户信息、新闻资讯等。这些海量的信息背后通常蕴藏着大量的数据价值,通过对这些信息进行挖掘分析,能够更好的理解用户的消费需求和心理,分析热点事件的发展及社会舆情的走势,能够给商家或者政府等提供一定的决策依据。海量数据中的大部分是以文本的形式呈现,在这些文本信息中,通常传递着客观事实信息和用户的主观的情感色彩信息,因此基于文本情感信息的挖掘是近年来研究的热点。其中在文本情感分类方面,如果分类方法可以自动的对文本的主观情感信息进行划分,则能够根据这些划分信息更好的分析用户的心理。传统的分类方法在文本特征提取方面存在一定的缺陷,如未考虑文本间关系或者特征维度的问题。此外基于文本的主题情感挖掘也是研究热点之一,主题模型也证实是文本挖掘方面比较有效的方法。传统的主题模型,如PLSA(Probability Latent Semantic Analysis)和 LDA(Latent Dirichlet Allocation),主要是针对文本隐含的主题进行建模来挖掘文本的主题信息。但是由于文本信息或者研究内容的不同,使基础模型不再适用,这也就给文本挖掘在某些方面带来了一定的挑战。针对传统文本情感分类以及主题情感挖掘所存在的不足,近年来已经有很多研究对这些不足进行了改进,其中在文本情感分类方面主要是对分类器进行了改进,在主题情感挖掘方面主要是根据LDA主题模型的思想进行改进。本文在已有的研究基础上所做的工作主要有两个方面:(一)在中英文评论数据集上对文本的特征提取进行了改进,主要是结合LDA主题模型和SVM分类器进行文本情感分类的分析;(二)在新浪新闻的数据集上,利用新闻信息的一些属性,如时间、情感注释等,进行LDA主题模型的扩展来挖掘主题情感的关系并分析主题的变化趋势。在文本情感分类方面,本文在LDA模型的基础上提出了一种新的文本特征提取模型 ELDA(External Knowledge-based Latent Dirichlet Allocation),可以说是一种弱监督形式的模型。该模型针对实验数据集的内容寻找合适的外部数据集,首先利用LDA主题模型对外部数据集进行主题抽取,之后在外部数据集主题抽取的基础上对实验数据集和外部数据集整体上进行主题的抽取,把主题特征看作文本的特征,其中外部数据集的引入在一定程度上增加了情感特征的权重。在实验中设置不同的模型主题数,并结合SVM分类器来分析文本情感分类所需要的合适的特征维度,寻找最佳的文本情感分类模型。实验结果证明,无论是在中文评论数据集还是英文评论数据集上,此特征提取方法在分类效果上均达到了较好的效果,相较于传统的文本情感分类方法在准确率方面有了 4%的提升。在主题情感挖掘与主题变化分析两个方面,本文在已有的研究基础上提出了一种新的四层主题模型JTSoT(Joint Topic-Sentiment over Time)。为了主题情感的挖掘,本文在传统LDA模型的基础上在主题与单词层之间引入了情感层,,主要是避免传统JST(Joint Sentiment Topic)模型中情感因素会对主题的划分产生影响,同时在主题情感之间引入狄利克雷分布。而在主题变化分析方面,根据已有的时间标签,将时间信息作为主题的属性,并引入了主题对时间的Beta分布,来分析主题的变化。最终实验结果表明,相较于已有工作TOT(Topic over Time)以及eToT(emotion Topic over Time)模型而言,本文提出的JTSoT模型能够直接体现主题情感之间的关系以及主题的变化趋势,同时在模型的Perplexity、文本情感分类应用方面都具有更好的效果。
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 赵慧茹;改进的文本主题表示及学习方法[D];内蒙古师范大学;2018年
2 李静;基于LDA的微博灾害信息聚合[D];武汉大学;2018年
【参考文献】
中国期刊全文数据库 前3条
1 徐群岭;;一种新型的中文文本情感计算模型[J];计算机应用与软件;2011年06期
2 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
3 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
中国硕士学位论文全文数据库 前1条
1 王晶;基于社交媒体的热点主题挖掘及主题演化分析[D];西南大学;2016年
【共引文献】
中国期刊全文数据库 前10条
1 吴汉东;;国家治理能力现代化与法治化问题研究[J];社会治理法治前沿年刊;2015年00期
2 孟献丽;;由来、发展与反思:2014年“反思的问题学”研究范式研究述评[J];当代中国马克思主义哲学研究;2015年00期
3 张燚;;中间权力网络与边疆多民族地区的治理现代化[J];广西民族研究;2015年06期
4 朱旭旭;;中国特色民主政治双重建构的学理分析[J];天津市社会主义学院学报;2015年04期
5 胡志平;;国家治理现代化的公共服务路径[J];探索;2015年06期
6 刘小梅;;深入贯彻“四个全面” 实现法制工作的跨越发展[J];湘潮(下半月);2015年11期
7 王霞;王临霞;;国家治理的科学内涵及实质抉微[J];赤峰学院学报(汉文哲学社会科学版);2015年11期
8 谢斌;;略论我国治理现代化建设的理念体系[J];陕西行政学院学报;2015年04期
9 钟俊平;;论推进国家治理现代化的方法论自觉[J];学理论;2015年31期
10 雷世平;姜群英;;高职院校治理能力现代化的内涵及其衡量标准[J];职教论坛;2015年31期
【二级参考文献】
中国期刊全文数据库 前2条
1 方涛;;推进国家治理体系和治理能力现代化的三维探析[J];广西社会主义学院学报;2014年02期
2 习近平;;切实把思想统一到党的十八届三中全会精神上来[J];求是;2014年01期
【相似文献】
中国期刊全文数据库 前10条
1 欧卫;谢赞福;谢彬彬;欧缤忆;;基于LDA模型的社交网络主题社区挖掘[J];计算机与现代化;2014年08期
2 储涛涛;;基于LDA主题模型的用户兴趣发现方法[J];软件;2016年12期
3 费雅君;白雪;康小红;;LDA优化电子鼻传感器阵列的研究[J];食品与机械;2012年01期
4 莫建明;周宗放;;LDA下操作风险价值的置信区间估计及敏感性[J];系统工程;2007年10期
5 廖列法;勒孚刚;朱亚兰;;LDA模型在专利文本分类中的应用[J];现代情报;2017年03期
6 龚磊;;基于LDA的主题发现及演化规律的可视化研究[J];现代计算机(专业版);2017年07期
7 王秋森;俞浩亮;徐浩诚;冯旭鹏;刘利军;黄青松;;基于LDA的微博用户粉丝亲密度评价模型[J];计算机应用与软件;2016年10期
8 李志清;;基于LDA主题特征的微博转发预测[J];情报杂志;2015年09期
9 张梦笑;王素格;王智强;;基于LDA特征选择的文本聚类[J];电脑开发与应用;2012年01期
10 刘启华;;基于LDA和领域本体的竞争情报采集研究[J];情报科学;2013年04期
中国重要会议论文全文数据库 前10条
1 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 田少娟;魏慧楠;王镭;;基于LDA主题模型的评论热点挖掘与手机产品性能分析[A];2017年(第五届)全国大学生统计建模大赛获奖论文选[C];2017年
3 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
5 汤媛媛;于琳琳;韩先菊;张慧玉;;基于LDA的高光谱遥感影像并行降维处理研究与实现[A];中国地质学会2015学术年会论文摘要汇编(中册)[C];2015年
6 刁宇峰;林鸿飞;;基于LDA模型的博客垃圾评论发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
8 黄荣兵;梁帼英;张敏霄;杜明辉;;一种基于LDA的Gabor不变矩人脸特征提取方法[A];第十四届全国图象图形学学术会议论文集[C];2008年
9 张明慧;王红玲;周国栋;;LDA主题驱动的中文多文档自动文摘方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年
2 武志超;LDA抽运高频Nd:YAG陶瓷激光器研究[D];长春理工大学;2010年
3 傅博;智能监控系统中的若干个关键问题研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 曹牧原;基于爬虫和LDA的新闻话题挖掘[D];河北大学;2018年
2 窦燕;社会化标注系统中基于LDA主题模型的标签推荐研究[D];华中师范大学;2018年
3 杨凡;基于LDA主题模型的在线评论聚类分析与推荐[D];大连理工大学;2018年
4 胡飞;话题自适应微博情感分类及观点汇总技术研究[D];东北大学;2015年
5 赵燕;基于LDA的企业微博主题传播效果分析[D];华南理工大学;2018年
6 胡燕;基于LDA的情感分类及主题情感变化分析[D];西南大学;2017年
7 闫泽华;基于LDA的新闻线索抽取研究[D];上海交通大学;2012年
8 王晓凡;基于LDA模型和模糊层次分析法的众筹模式风险评估研究[D];北京工业大学;2017年
9 任艺;基于LDA主题模型的图像场景分类研究[D];中北大学;2017年
10 吴远昌;基于LDA和主动学习的图像分类方法研究[D];华南理工大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合