收藏本站
《武汉大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于CBOW-LDA主题模型的Stack Overflow网站热点主题发现研究

张景  
【摘要】:随着互联网技术的飞速发展,各类社交网站成为用户发布、搜寻、获取信息的重要渠道。Stack Overflow是一个热门的国外编程问答网站,它给用户提供了一个发帖提问寻求解答的平台,深受国内外编程者的青睐。在StackOverflow数以万计的各类问题中,一些热点问题会引起广泛的关注,在一定程度上能反映该时期用户的关注热点与编程难点。因此,本文以Stack Overflow上的问题帖文本数据为研究对象,从数以万计的提问帖中挖掘出热点主题和热搜词汇,来获悉时下用户关注的信息需求和热点技术,给用户和研究者在对相关领域进行信息搜寻和热点研究时带来参考及便利。由于研究对象是该网站的海量短文本型提问帖,具有社交网络短文本的文本高维性特征,并且当前主流使用的主题模型——以概率化词汇抽取为基础的LDA(Latent dirichlet allocation)在对该类大容量数据进行主题挖掘时具有自身局限性,易导致文本难降维和主题分布不明等问题。因此本研究力求在当前主流主题建模算法的基础上做近一步的创新,针对目标数据特点采取一种更精准有效的主题建模方法来完成文本主题挖掘。本研究提出了一种基于CBOW-LDA的主题建模方法,先采用基于CBOW词向量的方法对目标语料进行相似词聚类,再以聚类结果为输入语料进行后续LDA主题模型文本表达和主题建模。以Stack Overflow网站上的编程问题帖的文本数据作为研究对象,采集2010-2015年的问题帖数据集POST进行实验,同等主题数下采用困惑度(perplexity)来度量算法性能,结果表明采用CBOW-LDA方法与现有的基于词频权重的词量化主题建模TF-LDA方法相比困惑度更低;同时在对StackOverflow的热点挖掘上,建立手工标注的标准评测集进行判定,结果表明CBOW-LDA评价指标优于TF-LDA,证实CBOW-LDA具有良好的算法性能和热点挖掘效果。研究成功挖掘出Stack Overflow上2010-2015年的热门主题和热搜词汇并进行相关数据分析,设计完成了基于CBOW-LDA热点主题发现的原型工具,运用该原型工具能快速便捷地实现对特定数据语料的热点主题发现和挖掘。本研究为文本主题建模和语义挖掘的相关研究提供了一种新思路和方式,研究提出的CBOW-LDA主题模型算法和实现的热点主题发现原型工具具有一定的研究意义和实际运用价值。
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张斌;张引;高克宁;郭朋伟;孙达明;;融合关系与内容分析的社会标签推荐[J];软件学报;2012年03期
2 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
3 袁柳;张龙波;;基于概率主题模型的标签预测[J];计算机科学;2011年07期
4 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
5 楚克明;李芳;;基于LDA话题关联的话题演化[J];上海交通大学学报;2010年11期
6 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期
7 张玉峰;何超;;基于潜在语义分析和HS-SVM的文本分类模型研究[J];情报理论与实践;2010年07期
8 刘海峰;陈琦;刘守生;苏展;;一种基于数据偏斜的改进KNN文本分类[J];微电子学与计算机;2010年03期
9 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
10 黄宇栋;李翔;林祥;;互联网媒体信息热点主动发现技术研究与应用[J];计算机技术与发展;2009年05期
【共引文献】
中国期刊全文数据库 前10条
1 Houkui ZHOU;Huimin YU;Roland HU;;Topic evolution based on the probabilistic topic model:a review[J];Frontiers of Computer Science;2017年05期
2 覃永震;妙全兴;;一种改进的Single-Pass算法及其在话题检测与跟踪中的应用[J];武警工程大学学报;2016年06期
3 夏火松;李保国;杨培;;基于改进K-means聚类的在线新闻评论主题抽取[J];情报学报;2016年01期
4 黄微;张耀之;李瑞;;网络舆情信息语义识别关键技术分析[J];图书情报工作;2015年21期
5 余勇;郭躬德;;基于矩阵分解模型的微博好友推荐算法[J];计算机系统应用;2015年12期
6 叶川;马静;;多媒体微博评论信息的主题发现算法研究[J];现代图书情报技术;2015年11期
7 伍万坤;吴清烈;顾锦江;;基于EM-LDA综合模型的电商微博热点话题发现[J];现代图书情报技术;2015年11期
8 韩开旭;任伟建;;基于改进Fisher核函数的支持向量机在推特数据库情感分析中的应用[J];自动化技术与应用;2015年11期
9 高辉;陈钧;牛海波;罗威;;面向科技情报的互联网信息源自动发现技术[J];大数据;2015年04期
10 俞刚;张泉方;;一种改进的无偏节点标签预测方法研究[J];计算机科学;2015年11期
【二级参考文献】
中国期刊全文数据库 前10条
1 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期
2 王巍;杨武;齐海凤;;基于多中心模型的网络热点话题发现算法[J];南京理工大学学报(自然科学版);2009年04期
3 张晓艳;王挺;;话题发现与追踪技术研究[J];计算机科学与探索;2009年04期
4 王永智;滕至阳;王鹏;聂江涛;;基于LSA和SVM的文本分类模型的研究[J];计算机工程与设计;2009年03期
5 刘海峰;王元元;姚泽清;张述祖;;文本分类中一种混合型特征降维方法[J];计算机工程;2009年02期
6 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
7 秦玉平;李祥纳;王秀坤;王春立;;基于超球支持向量机的类增量学习算法研究[J];计算机科学;2008年08期
8 蒲筱哥;;自动文本分类方法研究述评[J];情报科学;2008年03期
9 吴强;贾传荧;张爱锋;刘爽;;球结构支持向量机的改进算法及仿真研究[J];系统仿真学报;2008年02期
10 曾依灵;许洪波;;网络热点信息发现研究[J];通信学报;2007年12期
【相似文献】
中国期刊全文数据库 前10条
1 毕凌燕;王腾宇;左文明;;基于概率模型的微博热点主题识别实证研究[J];情报理论与实践;2014年02期
2 徐敏;李广建;;基于词频均值波动和概率语言模型的短文本热点主题探测研究[J];情报杂志;2019年06期
3 谷志军;;当代西方问责研究:理论框架、热点主题及其启示[J];中国行政管理;2017年07期
4 程肖;陆蓓;谌志群;;热点主题词提取方法研究[J];现代图书情报技术;2010年10期
5 郝晓玲;黄蕾;戴志宏;李艳红;;基于经济论坛数据的热点主题挖掘研究[J];情报科学;2016年05期
6 陆蓓;程肖;谌志群;;基于改进蚁群聚类的热点主题发现算法研究[J];现代图书情报技术;2010年04期
7 陈国权;黄振威;;地方政府创新研究的热点主题与理论前瞻[J];浙江大学学报(人文社会科学版)预印本;2010年06期
8 赵智兴;段鑫星;;“双一流”建设研究的热点主题与前沿窥探[J];广西社会科学;2019年03期
9 武强;邰杨芳;贺培凤;;国内信息行为研究的热点主题分析[J];中华医学图书情报杂志;2017年08期
10 丁晟春;王楠;吴靓婵媛;;基于关键词共现和社区发现的微博热点主题识别研究[J];现代情报;2018年03期
中国重要会议论文全文数据库 前2条
1 贺谦;肖辉;孔萍;;基于共词聚类的国内DRGs研究热点探析[A];2017年中国卫生统计学学术年会论文集[C];2017年
2 张东军;王斌;;体育组织文化研究现状与展望[A];第8届全国运动心理学学术会议论文汇编[C];2006年
中国重要报纸全文数据库 前10条
1 记者 陈健;政策利好有望催生热点主题[N];上海金融报;2017年
2 本报记者 张焕昀;机构看好热点主题绩优股[N];中国证券报;2017年
3 本报见习记者 张颖晓;改革催生投资机会 华夏领先聚焦热点主题[N];证券日报;2015年
4 日信证券 杨震宇;围绕热点主题谨慎做多[N];中国证券报;2009年
5 金百临咨询 秦洪;震荡筑底中把握两大热点主题[N];证券时报;2011年
6 中国航空工业发展研究中心助理研究员 刘亚威;未来飞机制造的几个热点主题[N];中国航空报;2013年
7 民族证券 黄博;国企改革或成下半年热点主题[N];上海证券报;2016年
8 申银万国 金泽斐;零售业增速虽快 但趋势依然向下[N];上海证券报;2008年
9 刘一洁;画面美和文字美缺一不可[N];中国新闻出版广电报;2018年
10 记者 傅春荣;众筹产业9月“首秀”投洽会[N];中华工商时报;2015年
中国博士学位论文全文数据库 前1条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 张景;基于CBOW-LDA主题模型的Stack Overflow网站热点主题发现研究[D];武汉大学;2018年
2 张海滨;生物医学热点主题分析和突发检测模型研究[D];厦门大学;2017年
3 尚笑可;近十年来汉语国际教育研究的热点主题与研究前沿[D];辽宁师范大学;2018年
4 方志超;基于多元数据对象的科学计量学热点主题识别研究[D];大连理工大学;2017年
5 吴靓婵媛;基于社区发现的网络舆情热点主题识别研究[D];南京理工大学;2017年
6 张舒;基于信息抽取技术的博客知识发现研究[D];扬州大学;2007年
7 朱红艳;国内公共图书馆法人治理结构知识图谱构建与分析[D];安徽大学;2016年
8 马明;肺癌治疗研究的热点主题及其演化轨迹分析[D];中国协和医科大学;2009年
9 王晶;基于社交媒体的热点主题挖掘及主题演化分析[D];西南大学;2016年
10 蒋玉桃;热点主题的探测系统研究及技术实现[D];电子科技大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合