尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 该文对基于支持向量机的中文文本分类做了深入的研究,并用约两万个文档的语料库进行实验.研究结果表明,利用中文分词软件并只使用名词作为文档向量的组成元素,中文分类的效果优于英文.在使用SVD变换文本向量空间之后,分类效果平均可改善21%.该文的研究... 展开 该文对基于支持向量机的中文文本分类做了深入的研究,并用约两万个文档的语料库进行实验.研究结果表明,利用中文分词软件并只使用名词作为文档向量的组成元素,中文分类的效果优于英文.在使用SVD变换文本向量空间之后,分类效果平均可改善21%.该文的研究同时也表明,SVD并未为SVM算法提供新信息,其作用相当于一个滤除噪声的滤波器,SVM解函数集的VC维与词频-文档矩阵的秩有关.该文最后提出一个计算词汇特征的概率模型,这个模型假定每一个词汇在文档中的出现频率服从Zipf定律,由此导出全体词汇的分布密度函数簇,并用最大似然法导出决定各个词汇分布密度的参数值.用训练集随机抽取的词汇进行拟合检验的结果表明,这一假定基本符合实际的分布.该文的研究还指出,基于这个概率模型的文本向量,可用两者共同出现的概率代表向量之间的相似度.实验表明,基于此概率模型的SVM使分类效果平均改善了37.9%,其中最好的查准率和查全率达到98%以上. 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。