尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 语料库是指为语言研究收集的、用电子形式保存的语言材料,语料库是语言学研究和自然语言处理等相关领域研究的重要工具。HNC理论作为一个中文信息处理的流派,它的发展要求HNC语料库的同步发展。本文的工作是要设计和实现一个体现HNC自然语言处理理论... 展开 语料库是指为语言研究收集的、用电子形式保存的语言材料,语料库是语言学研究和自然语言处理等相关领域研究的重要工具。HNC理论作为一个中文信息处理的流派,它的发展要求HNC语料库的同步发展。本文的工作是要设计和实现一个体现HNC自然语言处理理论特色的、服务于HNC研究的语料库。 论文的主要进展和贡献如下: (1)建立了功能完备的HNC语料库系统,包含生语料库和熟语料库,能够进行语料管理、加工、标注、检索、统计等。在系统设计上采用3层架构:应用层、接口层、实现层。接口层抽象出一套通用的语料库访问接口,能够有效隔离上层应用与底层语料库存储实现,简化了开发过程。 (2)构建了多用户语料库管理平台。在服务器上构建语料库管理平台,集中管理用户语料和公共语料。系统采用C/S模型,允许多用户并发访问,为多用户协同工作提供了一个便捷的公共平台。 (3)完善了语料库系统的功能。①在标注方面,构造了一种新的基于XML的语料标注方式,利用XML结合语言空间和语言概念空间标注信息,简化了标注过程。另外,提供了句群切分和语境单元标注工具,将HNC标注推向了语境单元层次。②在检索方面,采用Lucene全文索引技术实现了全文检索,并提供了3种HNC特征检索方式:基本检索、高级检索、XQuery检索。③在统计方面,除了常规统计外,还提供了HNC特征统计功能,设计和实现了4种HNC特征统计统计模式:数量统计、比值统计、限定属性分布统计、自定义分布统计,用户可以自由的定义统计内容,极大的满足了用户的统计需求。 (4)研究机器辅助标注。利用已有的标注语料,采用最大熵模型来解决语义块切分问题,采用基于实例的方法解决句类判断问题。 (5)建设了句类重组语料库。依托于基本语料库,按照句类重组熟语料,并提供了错误反馈和难点标注功能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。