[会议]第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)论文集  余俊英, 王明文, 盛俊

摘要: 随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现"过学习"的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特... 展开

作者 余俊英   王明文   盛俊  
作者单位
文集名称 第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)论文集
出版年 2006
会议名称 第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)  
组织单位 中国计算机学会   山东大学  
页码 144-148 开始页/总页数 144 / 5
会议日期/会议地点 2006-07-21 / 济南 会议年 2006
中图分类号 TP18  
关键词 特征选择   文本分类   类间分布   类内分布  
机标主题词 维数;泛化能力;电子文档
机标分类号 O14;TP1;TN99
馆藏号 H052716
相关作者
相关关键词