收藏本站
《武汉邮电科学研究院》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于IQABC改进的DBSCAN网页正文提取算法研究

洪鸿辉  
【摘要】:随着信息技术的发展,每天会都产生数以万计的网页信息。这些网页除了提供有价值的正文内容信息外,还会附带广告或链接等无用信息。一方面,这些垃圾信息会干扰用户获取有效信息的效率,影响阅读体验;另一方面,垃圾信息中包含的无用文字可能会被搜索引擎作为索引关键字,导致搜索引擎得出错误结论,给用户错误反馈。基于DOM树解析-模板方式是当下流行的网页正文提取算法,能够很好完成分类任务。由于网站的网页结构经常性改变,其需要不断监测网页结构,后期的维护带来了很大困难。本文通过研究网页结构,提出了基于IQABC(improved quickly artificial bee colony)改进的DBSCAN网页正文提取算法。本文主要工作与成果如下:(1)本文提出了一种全新的ABC算法,称为改进的快速ABC算法(IQABC),通过改进轮盘赌选择机制,在保持种群多样性的同时避免陷入局部最优,并且通过自适应步长改变了雇佣蜂消耗最佳食物来源,平衡了全局与局部的搜索能力,加快了后期的收敛速度。通过改进后的IQABC算法寻找的全局最优参数,作为DBSCAN算法的输入得到了优化后的IQABC-DBSCAN算法。(2)通过研究现有的主流网页正文提取算法的思想,指出了现有的主流算法通用性不足的缺点,提出了基于iqABC-DBSCAN网页正文提取算法。通过实验验证了iqABC算法相对于ABC和qABC算法有更快的收敛速度以及更好的收敛精度。并验证了使用基于iqABC-DBSCAN对网页进行正文内容提取的算法可以更加准确的提取出网页的正文内容,并且通过虚词过滤器可以解决单个网页多个正文的特殊情况,从而取得很好的提取效果。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】
中国期刊全文数据库 前10条
1 宋董飞;徐华;;DBSCAN算法研究及并行化实现[J];计算机工程与应用;2018年24期
2 宁建飞;;基于spark框架的DBSCAN文本聚类算法[J];汕头大学学报(自然科学版);2018年02期
3 李赞;王朝霞;隋昊;;基于DBSCAN算法的机场体系划分方法研究[J];兵器装备工程学报;2018年10期
4 张晓;;基于并查集的DBSCAN算法设计[J];伊犁师范学院学报(自然科学版);2014年04期
5 许芳芳;;一种结合蚁群聚类算法的DBSCAN算法[J];池州学院学报;2014年06期
6 金栋;文志信;吴天昊;;DBSCAN算法在通信电台关联上的应用[J];舰船电子工程;2011年06期
7 金栋;文志信;吴天昊;;DBSCAN算法在通信电台关联上的应用[J];国防科技;2011年03期
8 岳士弘,李平,郭继东,周水庚;Using Greedy algorithm: DBSCAN revisited II[J];Journal of Zhejiang University Science;2004年11期
9 鲁飞;王任;翁维波;陈明;涂志龙;;DBSCAN算法在无线网络优化中的应用[J];移动通信;2018年12期
10 熊回香;叶佳鑫;蒋武轩;;改进的DBSCAN聚类算法在社会化标注中的应用[J];数据分析与知识发现;2018年12期
中国重要会议论文全文数据库 前10条
1 朵春红;王翠茹;;基于取样的DBSCAN聚类算法及其遗传优化[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
2 王李彧;孙斌;;基于改进的DBSCAN聚类算法的云任务调度策略研究[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年
3 王纪凯;Chen Zong-hai;;A Novel Line Segments Extraction Algorithm Based on DBSCAN Method[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
4 马帅;宋国杰;唐世渭;杨冬青;王腾蛟;;基于单元划分的DBSCAN聚类算法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 庞洋;李海林;郭义喜;;基于DBSCAN算法的日志信息聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 Yi-Chun Xu;Man Zhu;Zunhai Ke;Yong Liu;Suifa Sun;;Isolating Ships from Shape Curve with DBSCAN[A];第25届中国控制与决策会议论文集[C];2013年
8 张健沛;许慧;杨静;崔洪晶;;基于数据分区、QR~*-树的并行DBSCAN算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
9 ZhenYao Zhang;JianYing Zheng;Xiang Wang;XueLiang Fan;;Background Filtering and Vehicle Detection with Roadside Lidar Based on Point Association[A];第37届中国控制会议论文集(E)[C];2018年
10 范晔;周水庚;曹晶;周傲英;;通过数据取样扩展基于密度的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
中国博士学位论文全文数据库 前5条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 孙志伟;空间数据聚类的研究[D];天津大学;2007年
3 张树凯;基于数据驱动的无人船艇航线自动生成[D];大连海事大学;2016年
4 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年
5 郑晓峰;道路运输信息系统的数据挖掘方法研究与应用[D];华南理工大学;2014年
中国硕士学位论文全文数据库 前10条
1 洪鸿辉;基于IQABC改进的DBSCAN网页正文提取算法研究[D];武汉邮电科学研究院;2019年
2 普蓉;基于网格和密度比的DBSCAN算法研究[D];辽宁大学;2018年
3 秦佳睿;DBSCAN聚类算法的改进及在数据分析系统中的应用[D];长沙理工大学;2017年
4 谭天;基于DBSCAN聚类的证据融合方法研究[D];湖南大学;2018年
5 朱子龙;基于Spark的聚类算法实现与应用[D];南京邮电大学;2018年
6 高玉强;DBSCAN算法研究及其在专利文本推荐系统中的应用[D];河北工业大学;2016年
7 陈碧丽;基于DBSCAN聚类算法的厦门岛内餐饮集群识别与集群空间特征研究[D];厦门大学;2017年
8 董一强;基于DBSCAN改进算法的时空轨迹聚类分析与研究[D];天津大学;2018年
9 刘勇;基于DBSCAN的空间聚类算法研究与实现[D];云南大学;2017年
10 吴俊;基于DBSCAN和LOF的网络入侵异常检测算法优化研究[D];福州大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合