尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和... 展开 随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和应用价值。 本文详细分析了中文文本分类的主要过程,包括文本预处理、文本表示、特征选择、分类器构建和分类器性能评估。在文本表示方面,本文重点介绍了向量空间模型,在特征选择方面,本文给出了互信息、信息增益、?2统计量等常用的特征选择方法,分类算法是分类系统的核心,本文介绍了决策树算法、K-邻近分类算法、朴素贝叶斯分类算法和支持向量机分类算法。 本文重点分析了K-邻近分类算法和朴素贝叶斯算法,并使用C++实现了基于K-邻近分类算法的分类器、基于多重伯努利模型的分类器和基于多项式模型的分类器。对于K-邻近分类器,本文讨论了如何确定K值,如何根据最近的K个文档决定测试文档类别等相关问题。对于朴素贝叶斯分类算法,本文引入了平滑技术,防止计算概率时出现零概率的情况。为了提高分类的效率和精度,本文还实现了基于文档频率的特征选取方法。最终将各功能模块结合在一起构成了一个完整的中文文本分类系统。 通过对系统的大量对比实验表明:K-邻近分类算法在 K-值等于5时具有最好的分类性能,并随着K值增加,性能在降低;多项式模型相比较其他两个分类模型在文本分类训练语料上具有最好的分类性能;伯努利模型的分类性能在这三者中最差。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。