收藏本站
《武汉邮电科学研究院》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的CM-Selection文本分类系统的技术研究与实现

丁世涛  
【摘要】:随着互联网技术的快速发展,网络信息呈现出爆发式增长。大量的广告信息、有害信息以及无用的垃圾信息也随之掺杂在巨大的数据流量之中,使得人们通过网络轻松获取可用信息的方式变得越来越难,网络体验越来越差。为了提高获取可用信息的速度,很多学者进行了大量的研究,采取了很多卓有成效的办法,文本分类技术就是其中的一个重要的手段。目前,常用的文本分类方法是基于有监督学习算法提供的分类功能,其面对海量数据,具有分类速度慢、准确率低、分类功能单一的问题。针对这一亟待解决的问题,本文提出CTF(Chinese Text Fast,快速中文文本)分类算法、HA-SVM(High Accuracy Support Vector Machine,高准确度支持向量机)分类算法和CMSelection(Chinese Multiple Selection,中文多选择)文本分类系统。论文主要工作如下:(1)依据文本标题代表文本类别这一特点,利用分词、去停用词、Word2Vec模型训练、类别队列等技术提出CTF分类算法。该算法是一种快速分类算法,能够满足快速分类需求,可以在时间复杂度为O(n)的情况下完成分类,还可以将分类准确率控制在75%以上。(2)依据SVM(Support Vector Machine,支持向量机)算法强依赖文本向量的理论不足,提出HA-SVM分类算法。该算法是一种高准确度分类算法,能够满足高准确度分类的分类需求。其不仅改善了SVM算法不足,还提升文本分类正确率,尤其在处理内容少、内容混乱的中文文本方面,将准确率提升35%以上。(3)通过对文本分类系统的研究,以CTF分类算法和HA-SVM分类算法为基础,构建了CM-Selection文本分类系统。该系统能够提供快速分类功能和高准确度分类功能。(4)通过目前大数据处理技术及其在文本分类领域的使用进行研究,将CTF分类算法和HA-SVM分类算法整合到Hadoop平台,能显著提升海量文本处理效率,缩短处理时间。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期
4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
5 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
6 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
7 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期
8 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
9 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
10 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期
中国重要会议论文全文数据库 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎巎;徐翼龙;;文本情感分析研究[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
4 刘伟;陈春林;;基于注意模型深度学习的文本情感倾向性研究[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 谭立;赵茜瑶;李倞;;基于NLPIR平台大数据文本分析的北京市典型建成绿道绩效评价[A];中国风景园林学会2018年会论文集[C];2018年
7 李洋;倪丽萍;李莹;;电子商务平台在线评论对冰箱销量的影响——基于文本情感分析方法[A];第十三届(2018)中国管理学年会论文集[C];2018年
8 李锋刚;张亚南;汪兵;;基于词向量和AP聚类的短文本主题演化分析[A];第十三届(2018)中国管理学年会论文集[C];2018年
9 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
10 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前1条
1 通讯员 王成弟 刘欢 本报记者 廖志林;肺部常见疾病AI诊断产品呼之欲出[N];健康报;2018年
中国博士学位论文全文数据库 前10条
1 徐康;基于主题模型的文本情感和话题建模的研究[D];东南大学;2017年
2 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 黄耀鹏;惩罚Logistic模型在文本分类中的应用研究[D];厦门大学;2017年
2 刘坤;基于LDA主题模型的微博推荐系统的应用与实现[D];浙江工业大学;2018年
3 付钊;基于文本语义分块的中医病情分类问题研究[D];浙江大学;2018年
4 付宇博;基于决策树的英语文本难度评估研究[D];华中师范大学;2018年
5 黄琼霞;基于深度学习的文本情感分析研究[D];福建农林大学;2018年
6 王悦;基于弱监督的种子词主题模型文本分类算法研究[D];吉林大学;2018年
7 郑潮阳;基于深度学习的文本多标签预测及问答匹配方法研究[D];辽宁大学;2018年
8 唐倩;人才需求信息的文本分类系统设计与研究[D];重庆理工大学;2018年
9 曾宇;网络评论短文本情感倾向性分析研究[D];山东师范大学;2018年
10 姜博闻;基于向量空间模型的文本分类及R语言实现[D];山东师范大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


丁香五月 啪综合