尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文本间相似度尽量的低。在没有先验知识的条件下,这是一个无监督的学习过... 展开 信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文本间相似度尽量的低。在没有先验知识的条件下,这是一个无监督的学习过程。 协同聚类是对向量空间模型中的行和列对象同时聚类,或者交替进行,最后迭代到收敛。文本聚类表示为向量空间模型,此模型的行为文本,列为特征词属性。层次协同文本聚类是将文本和特征词对象通过层次聚类方法进行聚类。由于文本集是海量的、高维的数据集,因此,如果把文本对象和特征词对象同时作为叶子节点用层次聚类处理,叶子节点将会呈现出海量的特性,并且忽略了特征词之间的语义关系,所以层次协同聚类面临低效和准确性降低。同时,半监督聚类可以利用少量的先验知识来指导聚类过程,不仅可以提高聚类的效率,而且可以提高聚类的精度。 本文首先对文本进行收集和预处理,分析和评价传统的权重计算模型的优缺点,然后通过曲线拟合的方式对权重计算模型进行改进,克服了传统权重模型的缺点,实验表明改进模型提高了聚类的质量。 本文用基于成对约束的半监督聚类方法,将文本数据集中出现的特征词聚类,然后将每个簇中的特征词合并为一个新的特征词簇属性,不仅可以降低向量空间模型的维度,且可以相似特征词合并,减少了近义词引起的误差。此方法是通常先找出特征词库中的成对约束集,再用K最近邻近集的方法对成对约束集进行扩充,聚类后将每个簇中的特征词合并成一个新的属性。 对文本数据集直接运用层次协同聚类而不考虑文本间的语义关系和特征词簇间的语义关系,把文本对象和特征词簇对象看做是独立的不相关的数据对象是不够全面的。本文通过计算文本之间的相似度和特征词之间的相似度构造出协同矩阵,然后利用此协同矩阵对文本进行层次协同聚类。实验结果表明,此方法的效率和精度有较大提高。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。