收藏本站
《安徽理工大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于随机森林的微博话题追踪的方法探究

唐孝军  
【摘要】:在面对互联网上大量的信息,假如只是通过腾讯新闻,今日头条等去搜索相关的信息,我们会浪费很多时间在一些与你不相关的信息中。如果运用分类算法技术,就能够帮助你迅速找到你想要关注的话题信息。这样你就不会浪费大量的时间,就可以高效的去处理其它事情。在随着分类算法广泛应用的过程中,话题追踪逐渐的成为了人们研究范畴。在此篇文章中,我用的是随机森林分类的算法,在经过对算法的改进和处理后,使之有自适应的功能。在上面的阐述下,下面是本文的主要工作和研究内容:第一,本文在随机森林分类算法的基础上,追踪的过程中包含以下四个方面:(1)抓取数据。(2)用所抓到的数据,构建代表性的词表。(3)对代表性的词语进行分类筛选,构造出分类模型。(4)随着时间的推移,话题会发生偏移,此时,构造的模型就需要自适应的实时刷新,其中代表性词选取与微博话题模型重塑实时刷新的分析是本文研究的重点。第二,在微博话题特征选取及文本表示方面,介绍了构建代表性特征词表的方法,主要分为三个步骤:汉语分词、代表性词的选取、代表性词在整篇微博话题中的权重计算。汉语分词过程中,增加了新词的发现功能,这样使分词更准确。在微博文本表示方面阐述了权重算法改进的必要性,并且在方法中添加了位置因子,减小了误差的同时提高了追踪的准确性。在权重计算方面,权重的计算公式采用的是改进算法-Okapi。话题随着时间的推移发生变化,那么相应的话题分类结果也要随之变化。分类的模型标准我可以通过反馈这种方法进行更新。此时,我们还要用到LDA方法去获得新话题并进行总结,判断出话题的变化。第三,在实际微博数据中将基于随机森林算法的微博话题自适应追踪方法应用于追踪热点微博话题,我们也可以去总结话题的变化,就可以自动连续正确的追踪话题有关的微博信息。
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 梁韬;张瑞;;基于词语条件信息量的新词发现[J];电子技术与软件工程;2014年11期
2 张传岩;洪晓光;彭朝晖;李庆忠;;基于SVM和扩展条件随机场的Web实体活动抽取[J];软件学报;2012年10期
3 李树平;夏春艳;李胜东;亓智斌;赵杰;;基于KNN的话题跟踪研究[J];微计算机信息;2012年10期
4 夏春艳;崔广才;李树平;;话题跟踪方法的研究[J];计算机工程与应用;2012年15期
5 李明;刘晋;;基于关联规则的新词发现技术研究[J];科技与企业;2012年09期
6 史瑞芳;;贝叶斯文本分类器的研究与改进[J];计算机工程与应用;2009年12期
7 刘海娟;张佳骥;陈勇;;语言模型在话题跟踪中的应用[J];无线电工程;2008年09期
8 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
9 刘海娟;张佳骥;陈勇;;基于改进权重计算的话题跟踪[J];无线电工程;2008年04期
10 王立希;王建东;汪静;;基于数据挖掘的新词发现[J];计算机应用研究;2006年12期
【共引文献】
中国期刊全文数据库 前10条
1 李浩君;杜兆宏;邱飞岳;;基于混合遗传算法的任务驱动分组优化研究[J];计算机科学;2017年S1期
2 封晶;;基于区域卷积神经网络的车辆检测方法[J];科技广场;2017年03期
3 熊光明;鲁浩;郭孔辉;陈慧岩;;基于滑动参数实时估计的履带车辆运行轨迹预测方法研究[J];兵工学报;2017年03期
4 郭子雪;曹万鹏;;基于区间数的应急物资调度决策模型及算法研究[J];数学的实践与认识;2017年01期
5 王熙照;贺毅朝;;求解背包问题的演化算法[J];软件学报;2017年01期
6 陈静;陶加贵;周前;刘建坤;;基于多背包问题求解的电网无功补偿配置方案[J];电力电容器与无功补偿;2016年05期
7 刘长石;寇纲;刘导波;;震后应急物资多方式供应的模糊动态LRP[J];管理科学学报;2016年10期
8 覃磊;周康;易校尉;;一种求解多背包问题的改进的人工鱼群算法[J];科技通报;2016年06期
9 贾松敏;王成富;徐涛;张鹏;;基于模糊贝叶斯网络算法的智能轮椅避障[J];计算机测量与控制;2016年05期
10 关泉珍;鲍泓;史志坚;;基于A*算法的驾驶地图路径规划实现[J];北京联合大学学报(自然科学版);2016年02期
【二级参考文献】
中国期刊全文数据库 前10条
1 张业海;;如何提高初中语文教学的有效性[J];语文教学与研究;2010年02期
2 易晓明;;非理性视阈对小说叙事的变革意义[J];江西社会科学;2008年11期
3 赵毅衡;;“叙述转向”之后:广义叙述学的可能性与必要性[J];江西社会科学;2008年09期
4 申丹;;何为“不可靠叙述”?[J];外国文学评论;2006年04期
5 申丹;杨莉;;语境叙事学与形式叙事学缘何相互依存[J];江西社会科学;2006年10期
6 谭君强;;叙述者可靠与不可靠性的可逆性:以鲁迅小说《伤逝》为例[J];名作欣赏;2006年15期
7 董希文;;文学文本互文类型分析[J];文艺评论;2006年01期
8 戴凡;《喜福会》的人物话语和思想表达方式——叙述学和文体学分析[J];外语与外语教学;2005年09期
9 王晓英;论艾丽丝·沃克短篇小说“日常用品”中的反讽艺术[J];外国文学研究;2005年04期
10 于开颜;《太阳照样升起》的叙事风格探析[J];外语与外语教学;2005年07期
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前6条
1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
2 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年
3 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
4 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合