摘要:
自然语言是人类空间认知结果的主要表现形式,文本即是人类最常用的一种自然语言,也是一种重要的原始空间数据来源。从文本中获取未分析的、非显性的空间信息已成为当前地理信息科学迫切需要解决的问题。GIS自然语言空间查询,自然语言路径描述,汉语文本...
展开
自然语言是人类空间认知结果的主要表现形式,文本即是人类最常用的一种自然语言,也是一种重要的原始空间数据来源。从文本中获取未分析的、非显性的空间信息已成为当前地理信息科学迫切需要解决的问题。GIS自然语言空间查询,自然语言路径描述,汉语文本空间关系抽取,文景转换及场景重建等领域已成为当前地理信息科学研究的热点。目前GIS自然语言空间关系的研究对象局限在选定的自然语言空间词汇以及有限文法的空间关系描述,通常从整体上关注“描述-解析”的映射过程。而在GIS自然语言空间查询及路径描述领域,受限性决定了其对文本空间信息抽取研究的局限。为此,我们提出了面向GIS的文本空间关系“描述-识别-解析”的整体框架,而本文通过引入中文信息处理领域的研究范式及技术,对“描述-识别”阶段中文文本空间方位关系的抽取方法进行了系统的研究。 本文研究主要分为四个部分:(1)面向信息抽取的中文文本空间方位关系表达;(2)中文文本空间方位关系的语料标注与分析;(3)基于规则的中文文本空间方位关系抽取方法;(4)基于机器学习的中文文本空间方位关系抽取方法。主要研究内容与成果如下: (1)中文文本空间方位关系表达 首先,在分析认知语言学的空间方位参照框架及中文文本空间方位关系描述特征的基础上,通过文本与地图两类符号系统在空间关系表达上的对比,提出了中文文本空间方位关系表达的两个层次,以及受语境约束的术语在空间方位关系表达研究中的纽带作用。接着,从空间方位关系表达式、分类、类型术语的判断三个角度分析了面向信息抽取的空间方位关系表达。其中,文本意象图式与RCC8类型的术语映射,即能有效的指导对文本空间方位关系的分类判断,也为抽取后GIS空间关系的解析提供了基础。 (2)中文文本空间方位关系的语料标注与分析 在SpatialML标注集及标注规范的基础上,采用GATE平台进行空间方位关系语料的标注工程。针对地理辞典类语料的领域特征进行处理:扩展地理命名实体组合情况的标注,并设计了归一规则;扩展地理空间描述中拓扑关系判断的规范。通过对实验语料的统计,分析了空间方位关系描述中的句法特征及空间词汇的指示性,为抽取方法的研究提供了基础。 (3)基于规则的中文文本空间方位关系抽取方法 通过构建空间词汇词典,结合关系模板及匹配规则,研究基于规则的空间方位关系抽取方法。首先使用BootStrapping迭代获取空间词汇,利用词汇语义型词典中概念相似度、相关度计算对空间词汇进行语义参数的设置;然后通过文本序列比对及模板聚类进行空间方位关系实例模板的泛化,结合ANNIC辅助人工归纳抽取模板;最后,使用OntoGazetteer构建空间词汇词典,JAPE正则文法引擎编写抽取模板,并通过扩展匹配算法实现基于规则的空间方位关系抽取方法。实验表明,使用不同词性类型的空间词汇同时作为种子词,选择丰富的特征向量,通过BootStrapping迭代方法获取的新增空间词汇的准确率最高;使用词汇语义型词典中概念相似度、相关度计算,对空间词汇语义参数的设置具有一定的效果,但由于其通用性,还需较多的人工修正;针对特定的空间方位关系描述文本,通过半自动的构建空间词汇知识库以及适量的文法规则,可取得较好的抽取效果。 (4)基于机器学习的空间方位关系抽取方法 选用关系抽取中性能最佳的支持向量机进行基于机器学习的空间方位关系抽取方法研究。首先,引入统计学习理论与支持向量机方法,分析了其适用于空间方位关系抽取的两个特性:结构风险最小化原则与使用核函数实现到高维特征空间的非线性映射。接着,讨论了空间方位关系的实例化方法,特征向量构建及抽取流程。实验表明,基于支持向量机的抽取方法具有较好的发现性能,且不依赖于空间词汇的识别,具有一定的实用意义。 (5)空间方位关系抽取的应用研究 简要分析了空间方位关系抽取在地理知识库构建和场景重建中的应用模式,通过文本驱动的地理知识库构建以及空间方位关系的图形重建演示了相关的应用场景。
收起