尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 硬件技术近年来飞速发展,无线网络的覆盖日益广泛。随着智能手机和平板电脑的逐渐普及,人们上网浏览信息不再局限于位置固定的台式机,而是可以随时随地通过移动设备接入互联网。这带来了网络访问量的骤增,进而互联网承载的数据量也大幅度爆发。在... 展开 硬件技术近年来飞速发展,无线网络的覆盖日益广泛。随着智能手机和平板电脑的逐渐普及,人们上网浏览信息不再局限于位置固定的台式机,而是可以随时随地通过移动设备接入互联网。这带来了网络访问量的骤增,进而互联网承载的数据量也大幅度爆发。在各式各样的文本信息急剧增加,同时也产生各种“信息噪声”。从各种杂乱无章的信息中提取出对研究有用的信息,成为高速、高效提取信息的关键技术。数据挖掘技术是从数据中抽取出数据之间的特殊关系信息的技术,常用的数据挖掘技术有关联分析、聚类和分类等。人们现如今的研究工作也已不止于对表面数据的分析,在更深的层次提取信息、分析文本,以进行深层次的信息挖掘,也是当前研究的热点。 分类是数据挖掘研究的一个主要方向,也是进行深层信息挖掘的基础。文本中由于各种客观目的而产生的“噪声”数据逐渐增多,使数据挖掘技术难度也逐渐增加。针对这种情况,首先将文本信息进行分类,再依据不同类别进一步进行数据挖掘,能有效减少算法复杂度,这也是深度挖掘的基础技术之一。而只有提高分类的正确率,才能使深度数据挖掘的结果更高效、精准。本文设计了一种分类器对网页文本进行初步分类以达到减少后期数据挖掘工作量的目的。该分类器基于朴素贝叶斯分类方法。而朴素贝叶斯分类方法基于统计学基础,其模型有易于理解,精度也可以接受,抗干扰能力强等优点,并且该算法在现有基础上也较容易实施。本文的分类器以java为实现语言,基于IK分词算法和朴素贝叶斯算法设计了一种通过摘取网页中的文本信息进行分类,从而判断网页的主题类型的中文文本分类系统,主要完成的功能是网页文本预处理、分类器训练、实际对网页进行分类等工作。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。