尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 中文实体集合自动扩展技术的研究已经从传统的限定类别、限定领域的任务发展到开放类别、开放领域的自动抽取。科研领域和应用领域的需求,给实体集合扩展提出了更多的要求。目前主流的方法都是模版法,由于种子存在一词多义和语义模糊的特性,而模版法仅... 展开 中文实体集合自动扩展技术的研究已经从传统的限定类别、限定领域的任务发展到开放类别、开放领域的自动抽取。科研领域和应用领域的需求,给实体集合扩展提出了更多的要求。目前主流的方法都是模版法,由于种子存在一词多义和语义模糊的特性,而模版法仅仅使用上下文信息会导致结果含有大量的噪音。最重要的是,模板仅仅是使用了种子的环境特征,而没有加入语义特征。因此,急需研究一种高效、低复杂度且融合语义信息的实体集合扩展法,以便能够快速、准确地从大语料中获得更多该语义类的实体,从而满足科研领域和应用领域的需求。本文的研究工作如下: 在模版的基础上,使用了直角坐标系、四边形面积与语境相似度,对候选集合进行过滤,期望得到高质量的数据。通过实验证明,算法的复杂度较低,算法比较有效。 由于传统方法没有加入语义信息,因此,不能完整刻画种子的全部特性。本文使用百度百科的词条标签作为种子的语义特征,并结合相似度过滤候选集合,希望可以得到高质量的候选集合。通过实验证明,算法复杂度偏低,数据的准确率、召回率、F值都较高。 最后,本文总结现有的研究工作,并指出日后的研究方向。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。