摘要:
在"便携式农业专家系统"项目的开发中,为了从农作物信息文本中抽取数据构造数据库,首先得从文本中为各类物种提取信息模板,形成数据库中各个表的字段定义.由于自然语言尤其是中文表示的灵活性,同一类信息的描述就有很多不同的表示,要从不同的描述中提...
展开
在"便携式农业专家系统"项目的开发中,为了从农作物信息文本中抽取数据构造数据库,首先得从文本中为各类物种提取信息模板,形成数据库中各个表的字段定义.由于自然语言尤其是中文表示的灵活性,同一类信息的描述就有很多不同的表示,要从不同的描述中提取出各种信息模式,就需要对文本中的各个句子进行归类,而要通过计算机来解决这个问题,就必须采用聚类分析的方法.在聚类分析完成后,就可以将要抽取信息的句子与模板中的信息模式进行关键词匹配,定位它所属的信息模式,最后抽取句子中的信息.聚类分析是一种应用性很强的数学方法,它已经应用到工程技术中的许多领域.在现实世界中,很多事物之间没有明显的划分界限,它们之间的关系往往是摸糊的,普通的聚类分析方法难以担此重任.将模糊数学方法应用到聚类分析中,形成模糊聚类分析.模糊关系更能反映客观事物之间的联系.因此,模糊聚类分析更适合于现实世界中事物的分类.通用的聚类方法一般适合于简单对象的分类和有限对象的分类.而在我们的应用中,文本中包含的信息量特别大,通用的聚类方法不适合于我们的应用.为此我们在开发中提出了一种新的快速模糊聚类算法,它具有准线性的处理速度和较高的聚类精度.该文先介绍了本项目开发的背景情况,然后介绍了农作物信息自动提取的任务的提出和基本解决思路.在文章的主体部分讲述了如何应用聚类分析的方法解决样本的归类问题:首先介绍了常用聚类方法,并对它们的复杂度进行了简要分析.然后详细介绍了我们提出快速模糊聚类算法,并进行了实验验证.文章最后介绍从农作物信息文本中自动提取信息的实现.
收起