基于规则的中文地址要素解析方法

基于规则的中文地址要素解析方法

基于规则的中文地址要素解析方法

第12卷第1期2010年2月

地球信息科学学报

JOURNALOFGEO2INFORMATIONSCIENCEVol112,No11

Feb1,2010

基于规则的中文地址要素解析方法

张雪英,闾国年,李伯秋,陈文君

(南京师范大学虚拟地理环境教育部重点实验室,南京 210046)

摘要:在日常生产与生活中,地址是最常见的使用自然语言描述地理位置的参考系统之一。地址地理编码技术被认为是大量业务数据的GIS实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、、公安、邮政、税收、电讯和公共卫生等领域中具有十分重要的应用前景。。它是将自然语言描述的地址拆分为在某一限定区域内,,这个过程可以被看作是一种特定的中文分词任务。,,而且普遍存在不规范现象。目前,。本文,构建了各类地址要素的特征字库,RBAI中文地址要素解析算法,开发了相应的原型系统。2800条/秒。这表明该方法符合大规模数据处理的应用需求,具有重关键词:中文地址;语义解析;地址编码;地址表示

1 引言

地理信息系统(GIS)通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源评价与管理、环境监测、交通运输、经济建设、城市规划以及政府部门行政管理等提供新的知识,为工程设计和规

[1]

划、管理决策服务。地理编码(Geocoding),将地理对象在确定的参考系中按一定的规则赋予唯一和可识别的代码,建立地理对象与地址的映射,以及地理对象与坐标系统的映射,从而将地理位

[2]

置信息转换成可以被用于GIS的地理坐标。地址是当前各类业务系统中运用自然语言描述空间位置的最常用手段。地址编码,又称地址匹配(addressingmatching)或者地址地理编码(addressGeocoding),可以看作是狭义的地理编码,是指将自然语言描述的地址信息,根据地址模型和编码规则进行智能语义解析,通过与数据库中匹配,建立与对应的空间坐标信息和地理编码关联的过

程。地址编码需要解决地址模型、地址解析和地址匹配等三项关键技术。利用地址编码技术可以使大量的原来已经存在于管理信息系统(MIS)中的数据能够具有空间定位的性质,而且能够使分散在各个部门的数据通过空间参照系联系起来,从而大大促进GIS技术的应用。因此,地址编码技术被认为是大量业务数据的GIS实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、城市规划、公安、邮政、税收、电讯和公共卫生

[3-5]

等领域具有很好的应用前景。

2 国内外地址地理编码的研究进展

20世纪60年代中期,美国国情普查局开发的“双重独立地图编码系统”(DIME),在GIS技术

的发展史上具有里程碑的意义。之后,DIME系统发展为著名的地址地理编码与参照系统(TIGER),

[4]

成为美国地址地理编码的标准。在地址地理编码技术的发展过程中,工业界的推动起到了很大

收稿日期:2009-09-21;修回日期:2010-01-08.

基金项目:“863”项目(2007AA12Z221);国家自然科学基金项目(40971231);南京师范大学重点科研基金资助项目

(2006105XGQ0051)。

作者简介:张雪英(1970-),女,博士,教授,汉族,四川人,主要从事地理信息的智能处理与应用研究。

E2mail:zhangsnowy@1631com

Word文档免费下载Word文档免费下载:基于规则的中文地址要素解析方法 (共8页,当前第1页)

基于规则的中文地址要素解析方法相关文档

最新文档

返回顶部