中国科学技术信息研究所--国家工程技术数字图书馆

[学位论文] 陈奕辰湖南师范大学 2015年硕士导师: 徐亮共57页

摘要 : 自动文摘是指通过计算机对文本信息进行一定处理，提取原始文本信息中的中心内容或对用户有价值的内容。自动文摘为人们提供了一个简洁和高效的获取信息的途径。本文提出了一种基于句子权重和篇章结构的自动文摘算法。首先，通过句子信息统计算... 展开

关键词 : 自动文摘篇章结构词语权重句子权重相似度计算

2. 基于文本的关键词提取方法研究与实现

[学位论文] 杨林安徽工业大学 2013年硕士导师: 王小林共52页

摘要 : 由于数据信息的膨胀，文本检索经常涉及海量文档。除学术论文包含关键词外，大量的文档没有关键词。面对海量文档的检索，如果没有关键词，几乎无法处理这类检索问题。因此，要进行海量文档的信息检索，必须首先解决对文档进行准确高效的关键词自动提... 展开由于数据信息的膨胀，文本检索经常涉及海量文档。除学术论文包含关键词外，大量的文档没有关键词。面对海量文档的检索，如果没有关键词，几乎无法处理这类检索问题。因此，要进行海量文档的信息检索，必须首先解决对文档进行准确高效的关键词自动提取。关键词自动提取是文本挖掘领域的一个分支，是文档检索、文档比较、摘要生成、文档分类和聚类等文本处理研究的基础性工作。本文研究的主要内容就是如何从一篇没有任何标引的文本中提取出能说明文章大意的主题词，即关键词。传统的人工的方法准确度很高，但效率低下，用计算机自动提取关键词，效率很高，但要解决准确度不高的问题。本文的主要工作是研究一种效率高、准确度也高的文本关键词提取方法。基于此，本文从关键词提取的一般算法入手，借助《知网》，结合统计学方法，提出新的关键词提取方法，使得提取的关键词更加准确、效率更高。主要工作如下：（1）深入研究《知网》内部结构，并对其程序化处理。（2）提出新的词语相似度计算方法。在概念层次上，引入义原类相似度的概念及计算规则，结合词语概念中主要义原类限制次要义原类和变系数法对各义原类加权计算，求得概念相似度；在词语层次上，引入词性相似度的概念，取不同词性的最大值作为词语相似度。实验结果表明，与已有方法相比，该方法有效提高了词语相似度的精确度和计算效率。（3）采用中科院分词软件对文本分词，对不同段落赋予不同段落因子，结合相应规则，用词语相似度模块处理测试文本分词结果。（4）分析现有关键词提取方法，根据其优缺点，总结新的词语权重计算方法TFIWF算法，将词频比作为文本候选关键词去噪音的权值，有效地抑制了与测试文本同类语料库对所提取关键词权重的影响，修正了TFIDF算法的偏差。实验表明，相对于传统算法不仅效率不减，而且准确度也明显提高。收起

关键词 : 文本检索关键词提取词语相似度词语权重 TFIDF算法

3. 基于词语权重分析的中文文本相似检测技术研究

[学位论文] 陈靖元郑州大学 2021年硕士导师: 周刚共70页

摘要 : 在当今互联网环境下，愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象，这将导致大量核心内容甚至全部内容一样的文档产生。这些近似或重复文档在文件存储和信息检索任务中都会耗费大量的成本和时间，也会对互联网信息的质量和传播... 展开在当今互联网环境下，愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象，这将导致大量核心内容甚至全部内容一样的文档产生。这些近似或重复文档在文件存储和信息检索任务中都会耗费大量的成本和时间，也会对互联网信息的质量和传播造成一定负面影响。因此，为了减少此类文档所带来的浪费，一种高效且精确的相似文档检索技术是十分必要的。将一篇文本映射为一个低维的向量，然后通过对比不同向量之间的相似度来判断文本是否相似，是目前相似文本检测任务中常用的技术之一，如Simhash算法。但已有的研究往往是为了去除海量网页中的重复网页，未能较好考虑文本表达过程中各个词语的特征信息，所以精度有所欠缺。为了提高相似文本检测的精度，本文对词语权重计算策略以及相似文本检测算法进行了研究，在此基础上，对经典的Simhash算法进行了改进和优化。本文的主要研究工作如下:(1)针对目前基于知识库的中文词语相似度算法使用单一知识库而导致计算结果信息不完备的问题，本文提出一种融合HowNet和同义词词林的词语相似度计算方法。在现有的基于HowNet信息内容的词语相似度算法和基于同义词词林信息内容的词语相似度算法基础上，根据词语的不同分布情况提出了一种动态融合两个知识库的策略，充分利用了HowNet和同义词词林中的体系结构信息来计算词语的相似度。实验表明，与刘群等几个具有代表性的方法相比，本文方法和MC30人工判定值之间的皮尔逊相关系数平均提高了0.112。 (2)针对传统的词权算法无法准确表示词语对于文本的重要程度，本文提出了一种基于词语多特征的词语权重计算方法。传统的TF-IDF算法中没有考虑词语本身的特点而仅考虑词语在文本和数据集中出现的频率，本文分析了中文文本编写者的表达习惯和词语中包含的主题语义信息后，提出一种包含词语的长度特征、词性特征、位置特征和标题匹配度的MFTF-IDF(Multiple Features TF-IDF)词权算法。经实际新闻文本分类实验验证，该方法相较于传统TF-IDF提升了3.28％的精确率，说明这种综合考虑词语多特征的算法可以提高文本表征的准确度。 (3)针对Simhash在相似文本检测任务表现上查准率较低的不足，本文使用MFTF-IDF词权算法改进了Simhash指纹的生成过程。传统的Simhash在计算特征词权重时仅使用单一简单算法，如布尔权重、TF权重或TF-IDF权重，在生成文本指纹的过程中易丢失文本语义信息。本文使用基于MFTF-IDF改进的Simhash算法来生成文本指纹，将数据集中的文本映射成一个个低维的向量，最后通过判断文本指纹之间的相似性来达到相似文档检测的目的。相似文本检测实验结果表示，改进后的Simhash指纹算法相较于传统的Simhash，平均查准率提高了5.47％，表明该算法可以提高文本指纹的表征能力。收起

关键词 : 词语权重分析文文本相似检测词语相似度词林信息词权算法

4. 基于改进词语权重的文本分类方法研究

[学位论文] 李萍东北师范大学 2010年硕士导师: 姜华共37页

摘要 : 信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户查找、组织和管理这些信息,并且快速、准确地找到用户所需的有用信息已成为当... 展开信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户查找、组织和管理这些信息,并且快速、准确地找到用户所需的有用信息已成为当今研究的重要课题。正是在这样的背景之下,基于机器学习的文本分类方法逐渐成为一个日益重要的研究领域。文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。文本分类系统能够在给定的分类模型下,根据文本的内容对文本进行分类,从而更好地帮助人们组织和挖掘文本信息,因此成为信息处理领域最重要的研究方向之一,具有较大的发展潜力。文本分类具有很大的实用价值,它在信息检索和信息过滤等方面有着广泛的应用,极大地提高了信息的使用效率。本文研究的重点是通过改进传统的词语权重计算方法来提高文本分类精度。在对传统的基于词语权重的文本分类方法作了深入研究的基础上,改进传统的词语加权方法一tf-idf方法,得到一种新的词语加权方法。传统的词语加权方法只考虑tf(词频)、idf(反文档频率)两方面,并且简单地认为低频词比高频词重要,所以,往往把稀有词赋予较高的权值,但在实际当中,稀有词几乎不能作为文本的特征来表示文本。为了弥补这个缺点,本文提出了新的计算词语权重的方法,来提高分类的效率和精度。并通过实验验证了该方法的可行性和高效性。实验表明,本文提出的改进词语权重的计算方法,在数据集Reuters-21578上使用KNN分类器分类的效果,要优于传统词语权重计算方法使用KNN分类器分类的效果。实验结果证明,从评估函数精确率、召回率、F1函数三方面来看，改进的词语权重计算方法的分类效果要好于传统的词语权重计算方法的分类效果。收起

关键词 : 文本分类 tf-idfi词语权重 K近邻分类器

5. 问答系统中文本特征选择及词语权重计算方法研究

[学位论文] 单丽莉哈尔滨工业大学 2004年硕士导师: 王晓龙;关毅共52页

摘要 : 问答系统(Question Answering System)采用自然语言处理技术,以自然语言问句为用户接口,完成对问句的理解,返回问句的答案而不是返回相关文档的集合.它的研究涉及到计算语言学、信息科学和人工智能科学,其核心是自然语言理解技术,包括文本自动分类技术... 展开问答系统(Question Answering System)采用自然语言处理技术,以自然语言问句为用户接口,完成对问句的理解,返回问句的答案而不是返回相关文档的集合.它的研究涉及到计算语言学、信息科学和人工智能科学,其核心是自然语言理解技术,包括文本自动分类技术和语义相似度计算.在问答系统中加入文本分类技术可以降低检索空间,提高检索效率.文本特征选择是基于向量空间模型的文本分类系统中的关键技术之一,主要是为了压缩空间维数,排除影响正确分类的干扰噪音,一般采用特征选择评估函数实现.该文采用KNN分类算法通过实验比较了较流行的五种特征选择评估函数TFIDF、互信息、期望交叉熵、信息增益和文本证据权,实验结果显示期望交叉熵是最适合中文旅游类文档自动分类的方法,并分别对效果较差的互信息、信息增益函数及效果较好的期望交叉熵函数进行了改进,使它们在分类精度上比原函数平均有较大的提高,尤其是改进后的信息增益函数评测结果超过了原来的期望交叉熵函数.问句与文档的相似度计算是信息检索领域的一个重要研究方向.在基于向量空间模型的信息检索系统中,词语权重计算是影响包含答案的文档在系统返回文档中的排序位置的重要因素之一,它解决了问句与文档中匹配词语的重要性的度量问题.该文针对面向体育旅游领域的问答系统应用中特殊重要的词语全局权重计算问题做了以下的研究:首先,分析比较了两种典型的词语全局权重计算公式,利用两个公式的优势互补,提出了一种新的组合词语全局权重计算公式,在实验中性能优于未组合的两种公式,提高了包含答案的文本片段在系统返回结果中的排序.其次,针对系统中应用的组块分析技术,提出了新的语义组块的权重计算公式,解决了匹配的语义组块的重要性度量的问题.最后,基于统计方法的词语全局权重计算结果也存在数据稀疏问题,该文将词语按词性分类,提出几种基于类别权重的新的未登录词权重计算方法解决了数据稀疏问题,通过实验比较选择了一种效果最好的,在系统应用中显示出比较满意的结果. 收起

关键词 : 问答系统文本特征选择词语权重计算

6. 基于层次语言模型的词嵌入方法研究

[学位论文] 庄承阳山东师范大学 2021年硕士导师: 郑元杰共81页

摘要 : 自然语言处理已成为计算机科学和人工智能方向的研究热点，词嵌入作为自然语言处理领域的表征学习和语言模型技术的统称，对提高自然语言处理任务的准确率起着关键作用。词嵌入又被称为词嵌入向量、词向量、词的分布式表示，其本质是将词语映射到向量... 展开自然语言处理已成为计算机科学和人工智能方向的研究热点，词嵌入作为自然语言处理领域的表征学习和语言模型技术的统称，对提高自然语言处理任务的准确率起着关键作用。词嵌入又被称为词嵌入向量、词向量、词的分布式表示，其本质是将词语映射到向量空间，获取词嵌入向量。但是，传统方法忽略了词语之间的顺序关系，导致词向量过度稀疏和冗长。随后语言模型的出现推动了词嵌入技术的变革，提取到了更加丰富的词语语义和句法信息。在英文词嵌入领域，研究人员提出了CBOW、Skip-Gram、FastText等经典模型。在中文词嵌入领域，词语与单词存在字形、语义差异，这增加了提高中文词向量质量的难度。因此，使用语言模型准确提取词语特征，对研究中文词嵌入具有关键作用。中文词语具备象形文字特点，词语本身存在丰富的语义信息。但是已有的中文词嵌入方法大多是基于语言模型引入词语细粒度组件特征，并未充分使用中文词语内部组件信息。本文针对上述问题，提出了中文词嵌入层次语言模型(Hierarchical Enhanced Word Embedding, HWE)，结合组成词语的笔画、子字符、字符信息，联合优化中文词嵌入向量。在词语相似度和类比推理任务中评估，验证了HWE模型能够有效提高词嵌入向量的质量。本文的主要创新点和贡献如下： (1)本文基于神经网络语言模型算法，对词语的逻辑结构进行分析，提出了一种新的适用于中文语言体系的层次语言模型，创新性的应用笔画、子字符、字符特征，联合训练中文词嵌入向量，提高了中文词嵌入向量的质量。 (2)本文基于笔画n-gram向量的方法，在层次语言模型的笔画嵌入层扩展了基本笔画的种类，使用34种不同笔画重新获取了精确度更高的笔画n-gram向量，并提出了笔画关系向量，实现了词嵌入向量的进一步优化。 (3)本文基于汉字的象形文字特点，针对笔画、子字符、字符对于表达词语语义贡献度不同的问题，提出了一种合理、高效的权重算法，并应用于中文词嵌入向量的生成过程，实现了词嵌入向量的联合优化，提高了词语相似度任务和词语推理任务的准确率。收起

关键词 : 词嵌入向量层次语言模型权重算法词语推理语义相似度

7. 主观题自动评分模型研究与验证

[学位论文] 何超华中科技大学 2015年硕士导师: 刘怀兰共63页

摘要 : 近年来，随着信息技术的飞速发展，计算机自动评分的优势已经日益突出。计算机自动评分可减少传统考试中的巨大的人力财力的消耗，节约社会资源；同时可避免因评卷人主观因素造成的评分偏差，增强了考试的公正公平性。然而，到目前为止，中文自动评分... 展开近年来，随着信息技术的飞速发展，计算机自动评分的优势已经日益突出。计算机自动评分可减少传统考试中的巨大的人力财力的消耗，节约社会资源；同时可避免因评卷人主观因素造成的评分偏差，增强了考试的公正公平性。然而，到目前为止，中文自动评分系统仅能完成对选择题，判断题等客观题的自动评分，中文主观题的自动评分涉及到自然语言处理，人工智能等多领域，且由于中文本身复杂开放，中文主观题自动评分要实现应用仍有待深入研究。语句相似度计算作为主观题自动评分中基础又关键的技术。语句相似度算法的有效性与准确度直接影响着主观题自动评分模型的优劣。本文从语句相似度计算入手，首先介绍了现有常用语句相似度计算方法，归纳分析其优缺点，并在此基础上，提出了一种改进的基于语义的语句相似度算法。该算法将全局语义信息，语句结构信息以及语义信息融入语句相似度计算中并引入了语句的语义方向的判别，有效的提高了语句相似度计算的准确度。本文构建了一个以语句相似度算法为核心的主观题自动评分模型。该自动评分模型以模拟教师评阅思维过程为核心思想，主要包括文本预处理，语句预处理以及相似度计算三大模块以完成自动评分。然后，本文在wamp开发环境下利用PHP语言实现了该模型，并将100份经过教师评阅的主观题试卷作为实验样本，以传统的基于语义的语句相似度算法的主观题自动评分模型为模型 A，以本文提出的改进的基于语义的语句相似度算法的主观题自动评分模型为模型B，进行了对照实验。最终实验数据表明：1.本文所提出的主观题自动评分模型是可行的；2.本文所提出的改进的基于语义的语句相似度算法有效的提高了语句相似度计算的准确度。收起

关键词 : 主观题计算机自动评分语句相似度词语权重依存句法

8. 基于摘要和引用的同主题热点论文挖掘原型系统设计与实现

[学位论文] 崔尚卿北京大学 2009年硕士导师: 唐世渭;朱强共58页

摘要 : 随着计算机技术的发展与数字图书馆资源建设的深入，数字图书馆中电子论文等数字资源的总量日益增多。目前，常见的基于关键词的电子论文检索服务，主要是通过用户输入需要查询的关键词，然后系统以列表的形式返回所有相关的结果。这样的查询模式，虽... 展开随着计算机技术的发展与数字图书馆资源建设的深入，数字图书馆中电子论文等数字资源的总量日益增多。目前，常见的基于关键词的电子论文检索服务，主要是通过用户输入需要查询的关键词，然后系统以列表的形式返回所有相关的结果。这样的查询模式，虽然较好的满足了用户的查询需求，但是由于返回结果巨大，用户需要进行二次人工筛选，这并不能够给用户带来便捷快速的使用体验。实际上，用户最关心的是与特定主题相关的一定时期内最热门的论文结果，而一般的查询服务显然不能满足这一重要需求，所以有必要提出新的相应解决方案。本文以国家“211”工程“中国高等教育文献保障系统”(China Academic libraryInformation System，简称CALlS)“十五”项目“中国高等教育数字图书馆”为背景，研究并提出了一个用于对大量电子论文数据进行热点论文挖掘的新的算法，并以此为基础，设计和实现了一个满足数字图书馆需求的热点论文挖掘原型系统。该原型系统利用电子论文的摘要文本和引用关系等特性，提出并实现了论文向量的词语权重计算模型以及对论文向量进行基于密度的聚类算法。本文提出了一种基于统计和基于影响力结合的混合型计算模型。传统的词语权重计算模型，采用向量空间模型(VSM)表示文档。向量空间模型的基本思想是以向量V表示文本D，其中Wi表示第i个特征相的权重，一般来说，文档挖掘中都选取对应文本中的字、词或词组进行表示。基于密度的聚类算法，其认为聚类就是数据空间中一些被相对低密度的区域隔离的具有高密度的区域。本文提出了一种基于不均匀密度的自动聚类算法(Auto-Clustering algorithm for large data with Non-Uniform Density，简称ACNUD)，能够较好的处理密度分布不均匀的数据，这包括(1)多个聚类之间的密度不均匀和(2)单个聚类内部的密度不均匀。实验表明，ACNUD算法既保持了一般基于密度算法的优点，比如能够发现任意形状的簇和排除孤立点，也能够有效地处理分布不均匀的数据。基于上述算法，本文设计并开发了一个热点论文挖掘原型系统，采用Browser-Server架构模式，实现了对多种不同论文数据源的统一加工规范化，热点论文的挖掘，挖掘结果的可视化等功能。设计与实现方面的其它细节，本文也作了全面的介绍和讨论。实验表明，该系统的挖掘结果是有效的。收起

关键词 : 数字图书馆热点论文词语权重数据挖掘

9. 智能健康知识问答系统的研究与实现

[学位论文] 郭中锋东北大学 2014年硕士导师: 张霞共82页

摘要 : 随着信息技术的发展，人们已习惯于从互联网上获取各类信息，这得益于搜索引擎技术的发展。然而，搜索引擎仍然有一些问题没有解决。首先是用户检索时，相关信息返回太多且不精确，其次是检索只能按关键字进行匹配，实际上并不能精确表达人们的检索需... 展开

关键词 : 健康知识问答系统数据库中文分词词语权重语义推理

10. 基于混合神经网络的微博文本情感分析研究

[学位论文] 刘恒运哈尔滨工程大学 2022年硕士导师: 张健沛共68页

摘要 : 随着信息技术的迅速发展，各类社交媒体工具也层出不穷。微博由于其传播范围广、用户流量大等特点，成为大众了解时事、表达情感的重要平台。本文关注微博文本评论的情感二分类任务，主要针对微博文本特征提取不完整，忽略情感信息权重的问题，提出一... 展开随着信息技术的迅速发展，各类社交媒体工具也层出不穷。微博由于其传播范围广、用户流量大等特点，成为大众了解时事、表达情感的重要平台。本文关注微博文本评论的情感二分类任务，主要针对微博文本特征提取不完整，忽略情感信息权重的问题，提出一种基于混合神经网络的微博文本情感分析模型。该模型采用双通道的计算结构，能够综合分析微博文本中的局部特征和时序特征。本文的研究工作和创新点如下: 针对word2vec生成的词向量表示不包含情感信息和词语权重的问题，本文提出一种融合了word2vec、微博情感词典、TF-IDF权重信息的情感词向量表示方式。首先统计词频，使用TF-IDF算法过滤一些低频的词语和一些高频却没有意义的词语。针对候选词语与情感基准词汇在文本中同时出现的概率很低的问题，基于SemanticOrientationPointwiseMutualInformation(SO-PMI)算法，计算候选词语与对应文本情感极性的相关性，通过计算结果确定词语的情感倾向，完成微博领域情感词典的建立。将词语的SO-PMI值和词频与词向量进行融合。完成一种融入微博上下文语义、情感信息、词语权重的情感词向量表示。设计深度学习模型验证情感词向量在微博文本情感分析任务中的有效性。针对单一深度神经网络模型特征提取不完整、忽略情感词语权重的问题，本文设计并实现了Hybrid-Att混合神经网络模型。该模型采用并行计算的方式，从卷积神经网络层提取文本的局部情感特征，从双向长短期记忆网络通道提取文本的时序特征，并将输出后的时序特征向量输入至注意力层，通过注意力机制提高对重点词语的关注，优化情感特征权重来更深层次的提取情感信息。将CNN模型与Bi-LSTM_Attention模型进行混合，既能够从微博文本中抽取出局部的情感语义特征，同时也能够考虑到全局文本的时序特征。然后将局部特征向量与时序特征向量进行连接，最后经情感分类层输出结果。为了验证混合神经网络模型Hybrid-Att在微博文本情感分析领域的有效性和可行性，设计多组网络模型进行对比实验。结果表明在weibo_senti_100k公开数据集上准确率达到95.28％，精确率、召回率和F1值等指标也略有提升，在网络爬取的数据集上也有良好的表现。证明了该模型能够很好的胜任微博文本情感分析任务。收起

关键词 : 文本情感词语权重情感词向量混合神经网络注意力机制