摘要:
自1995年以来,Web技术进入了快速发展的阶段,表现为Internet上的Web页面数量与服务站点数量呈指数级增长。2004年后,Internet上的PIW(pubulic indexable Web)页面数目达到了1010数量级,而且已每天新增800万新页面的速度。同时, Web服务器的数量23周即...
展开
自1995年以来,Web技术进入了快速发展的阶段,表现为Internet上的Web页面数量与服务站点数量呈指数级增长。2004年后,Internet上的PIW(pubulic indexable Web)页面数目达到了1010数量级,而且已每天新增800万新页面的速度。同时, Web服务器的数量23周即可增长一倍。Web已成为一个开放性、动态的、全球性信息服务中心,以及当前人们获取信息的重要手段。如何从大量的Web信息中提取出人们感兴趣的信息和有价值的信息是现代信息研究的重要课题。 针对Web文本挖掘的特殊性,设计并实现了一个文本分类系统。使用该系统的主要目的是实验和发现Web文本分类相关算法的性能和准确率。系统主要包括训练和分类两大模块。训练模块有:(1)中文文本预处理,系统采用中科院计算所汉语词法分析工具包ICTCLAS,实现了对文本的分词和预处理功能;(2)特征选择,实现了文档频度 DF、卡方特征词选择、信息增益(IG)、互信息法等四种特征选择算法;(3)权重计算,实现了TF、TF特征评估函数值等权重算法,建立VSM模型;(4)分类器构造,实现了K近邻基于统计方法的文本分类算法,分类模块还包括对分类结果进行评价,并将评价结果反馈给训练模块,从而不断改进训练过程。 为了评测已实现的KNN分类系统的分类精度,采用了因特网上由搜狐新闻内容组成的小型语料库进行训练和分类测试。该语料库包括教育,体育,环境,娱乐,科技,经济6个类别,共780个文本。同时对改进后的算法进行实验并比较分析。实验数据可用于信息检索、信息过滤、数字图书馆和网页分类等做参考。
收起