尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 生物医学词义消歧作为生物医学和自然语言处理的交叉学科,在机器翻译、语音识别、信息检索和基因命名标准化等领域发挥着重要的作用。由于生物医学歧义词的存在,使得计算机无法正确理解生物医学文献资料表达的含义。因此,提高计算机处理歧义词的能... 展开 生物医学词义消歧作为生物医学和自然语言处理的交叉学科,在机器翻译、语音识别、信息检索和基因命名标准化等领域发挥着重要的作用。由于生物医学歧义词的存在,使得计算机无法正确理解生物医学文献资料表达的含义。因此,提高计算机处理歧义词的能力,成为了专家学者研究的热点。 本文通过对生物医学信息、词义消歧相关技术和深度学习模型的研究,结合图卷积神经网络(Graphconvolutionneuralnetwork,GCN)、图注意力网络(GraphAttentionNetwork,GAT)和双向长短期记忆网络(BidirectionalLongShort-TermMemory,BiLSTM),构建生物医学词义消歧模型。选取MSHWSD语料库中的29个生物医学歧义词对模型进行测试,用平均准确率衡量模型的性能。实验结果表明,所提出的方法获得了较高的平均准确率。具体工作如下: (1)详细介绍了用于生物医学词义消歧的语料库MSHWSD以及语料库的预处理过程。分析了消歧特征的提取、使用Word2vec工具对其向量化以及生物医学词义消歧图的构建过程。 (2)提出了一种基于GCN的生物医学词义消歧模型,将传统卷积操作从欧式空间数据推广到非欧式空间数据。通过该模型可以从词义消歧图中提取特征。GCN消歧模型将邻居节点特征聚合到中心节点时,无法判断节点周围邻居的重要性。因此,提出一种基于GAT的生物医学词义消歧模型,使用注意力机制来获取周围邻居信息的重要性,降低了噪声节点信息权重,从而实现更高效的信息传播与聚合。研究了集成学习的思想,将单独的消歧模型组合成集成模型。实验结果表明:集成模型的平均消歧准确率要高于单独的消歧模型。 (3)提出了一种基于半监督的GAT生物医学词义消歧模型。介绍了基于半监督的词义消歧模型的工作流程,解决了训练语料少的情况下模型优化问题,使用扩充后的语料对模型优化,直到无标注的语料为空结束训练过程。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。