尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 关联数据发展至今规模已十分庞大,其应用技术也愈加成熟,然而影响关联数据发展的数据质量问题却不断增加,其中包括原始数据来源不明、使用权益声明混乱、属性描述不够完整、数据语法错误、SparQL查询不可用等。这些质量问题令数据使用者难以获取准... 展开 关联数据发展至今规模已十分庞大,其应用技术也愈加成熟,然而影响关联数据发展的数据质量问题却不断增加,其中包括原始数据来源不明、使用权益声明混乱、属性描述不够完整、数据语法错误、SparQL查询不可用等。这些质量问题令数据使用者难以获取准确、有价值的信息,从而使数据集的应用效果大打折扣。 针对关联数据质量问题,人们已开展相关研究,已有研究主要从数据质量评估的角度,依据度量指标对已发布数据集进行质量评价与检测。这些研究虽为高质量数据集选择提供了参考,但对数据集质量的提升帮助不大。本文面向数据管理者的需求,通过分析数据规划、发布及使用维护等各阶段的数据质量影响因素,探索数据质量控制策略及相关技术方法,以便为高质量关联数据发布提供借鉴。 本论文的研究工作具体包括以下三个方面: 第一,根据关联数据质量控制需要,本论文将关联数据发布管理生命周期划分为三个主要阶段:数据规划阶段、数据发布阶段、数据运营管理阶段,分析各阶段数据管理操作特点以及存在的影响数据质量的因素,提出各个阶段对应的质量控制指标、判断规则以及检测实现策略,从而提出一个三段式关联数据质量控制指标模型,构成质量控制的方法体系。 第二,结合关联数据资源的特点,在借鉴相关技术方法的基础上,对三段式关联数据质量控制指标模型中部分关键指标检测技术方法进行深入研究,对数据完整性检测、数据内容准确性检测、关联关系创建与维护以及数据源综合质量评价等关键技术方法提出具体的解决方案。 第三,选取科技文献数据集,针对部分质量控制指标进行测试。再者,参照本体的技术方法,根据三段式关联数据质量控制指标模型结构特点,集成关联数据管理生命周期管理阶段、质量维度、控制指标、判断标准、注意事项等实体对象及相关关系,构建可与数据资源一同发布的应用词表。同时,集成对指定关联数据源的评估结果信息,供数据管理者和数据消费者查询利用。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。