摘要:
电子健康档案是在医疗活动过程中产生的重要临床信息资源,对于医疗行业治理、医生的临床决策等方面有着重要意义。然而,电子健康档案的数据质量令人担忧。因此,在对医疗健康数据使用之前,需要对其进行全面、深入地评估。为提高数据利用率,需要建...
展开
电子健康档案是在医疗活动过程中产生的重要临床信息资源,对于医疗行业治理、医生的临床决策等方面有着重要意义。然而,电子健康档案的数据质量令人担忧。因此,在对医疗健康数据使用之前,需要对其进行全面、深入地评估。为提高数据利用率,需要建立一套合理、有效的质量评估方案,并且开发一个数据质量评估工具,评估医疗数据的质量。 本论文对于文本这类非结构化数据,在语义和完整性定义的基础上,提出了语义完整性的概念和一套基于信息要素的语义完整性评估方法。该评估方法根据文本中各信息要素之间的关系:独立、包含和并列,分别设定不同的权重。然后,提出基于Bi-LSTM-CRF(Bidirectional Long Short.Term Memory with Conditional Random Field)网络识别出文本中的各信息要素,根据设定的权重最终计算出文本的完整率。本论文对儿童糖尿病患者的现病史文本进行了语义完整性评估,验证了该方法的有效性。 若待评估的医疗数据量巨大,仅仅通过人工方式进行质量评估,则需要耗费大量的人力和物力。想要充分且快速地对整体数据集进行评估,则需要一个数据质量评估工具,自动化地对数据集进行评估。因此,本论文开发了~个数据质量评估工具,可以建立内部质量、外部质量等不同视角的质量维度和子维度。该工具通过规则定义评估度量,实现完蛰陛、准确性、一致性等多维度的数据质量评估,减少了人工评估带来的人力成本和评估误差。
收起