多源地名地址数据治理技术的研究与实现

江西地名研究

关注我们，获取更多地名资讯

关注

摘要：地名地址是实现跨部门业务协同和实现数据共享的关键纽带，本文通过分析各部门地名地址数据情况，提出数据库设计优化方案，运用自然语言处理等技术，研究并实现了一种多源地名地址数据治理技术方案，构建了标准统一、要素丰富、空间精准的地名地址库。

关键词：地名地址；数据治理；ETL；自然语言处理

0 引言

近年来，浙江省以数字化改革为抓手，全方位推动省域治理方式重大转型。地名地址作为识别空间的符号，关系着国防建设、经济发展、公共服务，是支撑数据空间化、实现跨部门业务协同和数据共享的关键纽带。当前地名地址普遍存在多头管理、各自为政的情况，数据重复采集严重，因此开展地名地址数据治理工作，构建标准统一、要素丰富、空间精准的地名地址库迫在眉睫。

对于地名地址数据治理，已有多篇文献进行了研究。赵骞等从测绘、民政、工商需求导向入手分析了多部门地名地址整合与协同服务方法；李琴等围绕民政、测绘、公安三部门数据管理探讨了宁波市地名地址数据建设标准；马春林提出了地名地址数据融合、预处理、数据去重、标准化、实体匹配的技术路径；陈再辉探索了FME在地名数据更新和融合模式中的应用。虽相关学者研究不少，但在数源选择、数据库体设计、治理方法等方面仍有广阔的研究前景。

本文以衢州市地名地址治理为例，分析存量数据情况，融合各数源特点和优势，利用空间ELT平台，采用自然语言处理技术，研究并设计一种便捷、自动的地名地址数据治理方法，积极探索“一地创新，全省复用”的模式。

1 治理目标

基于存量地名地址数据，运用数据清洗、匹配、比对、去重等数据治理技术手段，解决编码不统一、描述不准确、空间化不完整等问题，全面建成标准规范、信息准确、数据鲜活的地名地址数据库，构建空间治理中的多跨协同应用桥梁，更好地服务省域空间治理数字化平台衢州节点建设，为最终建成“空间数字化、数字空间化、协同网络化、治理智能化”的空间治理体系提供坚实支撑。

1.1 总体要求

1）数据唯一性。全面消除不规范地名以及地名歧义等问题，确保数据唯一存在，实现有房必有址、一地一名、一址一号。

2）空间准确性。完成地名地址数据上图入库，依托高精度基础测绘成果，全面提升数据空间精度。

3）要素关联性。完善要素关联关系，建立地名和地址的关联，门、楼、单元、户室的不同地址类型的从属关联以及要素历史关联。

4）应用广泛性。地名地址库体设计融入部门特色需求，增强部门间数据协同能力，增加数据应用广度。

1.2 数据收集和分析

衢州地名地址的命名、采集、使用和管理涉及了多个部门，民政局作为地名地址的主管部门，负责地名地址的命名以及标准地址库建设；政法委聚焦基层治理形成了基层治理全量地址库；自然资源和规划局（以下简称“资规局”）面向公共GIS服务采集了地名地址库。本次共归集地名地址数据约420万条，其中市民政局约100万条，市政法委约300万条，市资规局约20万条。各部门数据情况对比分析见表1。

1.3 库体设计

综合考虑数据的法定性、准确性和鲜活性，衢州市地名地址库以民政局、政法委地址库的库体结构为基础构建，数据库采用ArcGIS Geodatabase格式（.gdb）。

地名数据库，基于民政部《地名分类与类别代码编制规则》（GB/T 18521—2001），根据空间特征分为点状、线状以及面状地名。基础属性有唯一标识码、行政区划代码、省级名称、市级名称、区县级名称、乡镇街道名称、村社区名称、标准地名、地名类型等；扩展属性有经度、纬度、宽度等。

地址数据库，基于《浙江省“基层治理四平台”标准地址库建设技术规定》，在门、楼、户室地址的基础上增设单元地址，包括标准地址和全量地址。基础属性有标识码、地址全称、标准地址、省级区划名、设区市区划名、县级区划名、乡镇（街道）级区划名、类行政区域名、村/社区名、组/自然村名、街路巷弄名、门牌号、院落名、子区名、院内道路名、院内门牌号、楼牌号、建筑物名、单元门号、楼层、户室号等；扩展属性有兴趣点名称、照片、户主、地址用途等字段；关联属性有政法委标识码、民政标识码、所属门址标识码、所属单元标识码等。

2 关键技术应用

2.1 空间ETL平台

FME是一款强大的数据集成平台，为读写、存储、处理和转换各种空间数据提供了一套完整访问空间数据的解决方案，支持336种不同的格式，包含500多个转换器，无须编程即可快速、高质量、多需求地进行各种数据处理工作。本文基于FME Sever平台，制作地名地址数据提取、分节、融合、转换、质检等38个处理工序，并发布数据治理服务，形成自助、实时和自动化处理的数据治理链路。

2.2 Python

Python凭借着批量处理、操作简单、入门快、效率高、可跨平台且植入性高、稳定成熟等众多优点，拥有众多开放的算法库，诸如ArcGIS、FME等主流空间数据平台均已支持Python。本文将Python与FME紧密结合使用，实现地名地址数据的文本替换、属性计算、转换、质检等一系列操作。

2.3 地址识别技术

地址识别是数据治理中融合和匹配的关键环节。中文分词技术，以词作为基本单元，可实现对文本进行词语的自动切分，并形成词语项集。结巴分词（Jieba）作为常用的自然语言处理分词工具，基于HMM模型开发，拥有精确模式、全模式、搜索模式3种，具备词性标注能力，支持自定义词库，可实现一定程度的未登录词识别，基于Python编写，能嵌入FME平台使用。正则表达式，是一种能够匹配一个或多个字符的模式字符串，由一系列普通字符和元字符组成。在地址识别拆分中，地名识别采用结巴分词，而楼牌号、单元号、楼层以及户室号的识别采用正则表达式，进而实现地址描述的精准识别和拆分。

3 设计与实现

3.1地名治理设计与实现

3.1.1总体设计

地名治理以民政局的行政区划、标准地名、政法委地址库、自然资源和规划局的天地图电子地图以及1∶2000库为基础，通过数据预处理、地名词库构建、地名数据融合以及数据质检环节，完成标准地名数据库构建。技术路线如图1所示。

3.1.2地名数据预处理

地名数据预处理运用数据提取、地名类型检查、地名图形分类等操作，最终形成民政地名数据、政法委地名数据以及测绘地名数据。地名数据提取过程中，需根据所提取的字段类型进行词性标记，为构建地名词典提供基础数据。如道路名称标记为street，建筑物名称标记为building_name，院落名标记为yard_name。测绘数据作为数据空间化的核心载体，需提取道路结构线、水系线、水系面、居民地范围面等数据。

3.1.3地名词库构建

地名词库构建将民政地名数据、政法委地名数据以及测绘地名数据进行汇总、去重后，融入区划地名，生成地名词库和标准地名文件。地名词库用于地址的识别拆分，标准地名用于统一地名地址数据中的规范名称。如某小区民政法定名称为“米兰春天小区”，但政法委、测绘地名地址库中存在“华都米兰春天”“米兰春天小区”“米兰春天”等表述，需完成名称标准化后方可进行数据融合。

3.1.4地名数据融合

地址数据融合采用GeometryFilter、FeatureMerger等转换器，将地名数据按照点、线、面3种图形类型，依次与高精度的测绘数据成果进行匹配、融合以及空间落图。点状地名将与测绘的兴趣点和居民地点进行匹配融合；线状地名将依次与测绘的道路结构线（单线）、河流结构线、桥梁、水系线以及道路结构线（双线）进行匹配融合；面状地名将先后与测绘的湖泊池塘水库、小区、地名以及政法委的地名进行匹配融合。对于匹配失败的地名要素，则大致生成空间图形，便于后续修改。地名数据融合后，将根据库体设计完成库体数据整体转换以及相应属性字段（经度、纬度、长度等）的自动赋值计算。

3.1.5地名数据质检

地名的数据质检包括空间参考系检查、库体结构检查、完整性检查、属性检查、空间检查等5个质量元素检查。具体包括大地基准、图层分类定义、属性字段定义、数据完整性、逻辑正确性、属性唯一性、属性正确性、空间拓扑检查及空间定位精度9个质量子元素检查。在FME中组合使用DuplicateRemover、LineOnAreaOverlayer等转换器，完成地名成果的自动化、智能化质检。

3.2地址治理设计与实现

3.2.1总体设计

地址治理以民政局、政法委、资规局三部门的地址库为基础，通过地址识别拆分、地址标准化、地址数据融合以及数据质检，完成地址库的构建。技术路线如图2所示。

3.2.2地址识别拆分

为实现多源地址的融合，需对已归集的地址数据中的描述型地址和复合型地址进行拆分。

1）描述型地址识别拆分。描述性地址，即仅有地址描述，没有地址分节信息的地址，此类情况多数存在于民政地址。以“乐业景观小区A9幢4号”地址为例，在FME中使用PythonCaller转换器，利用结巴分词和正则表达式，可对该地址精准识别为“乐业景观小区（yard_name）/A9幢（building_num）/4号（home）”，其中yard_name、building_num以及home分别对应院落名、楼牌号以及户室号。在治理过程中，会出现识别失败的情况，如“戴家村下周25号”，被识别“戴家村（community）/下（f）/周（nr）/25号（door）”，其中的“下周”未识别为自然村（village），原因为地名词库中不含“下周”，补充词库即可正确识别拆分。在新街道治理中，32244条数据中，未识别405条，识别率达98.75%。

2）复合型地址识别拆分。复合型地址是指一个地址中包含了多个地址信息，如“西安古街260—264号”，包括了“西安古街260号、262号、264号”3个地址。此类地址在民政以及政法委地址库中均有存在。通过FME提供的TestFilter和PythonCaller转换器完成地址的拆分。

3.2.3地址数据标准化

根据地名治理中生成的地名词库，完成对民政、政法委以及资规地址数据的名称标准化替换，为多源地址数据匹配融合消除障碍。

3.2.4地址数据融合

地址匹配融合基于Matcher转换器，暴露匹配字段，完成数据融合。针对不同的地址类型，制定不同的匹配策略，如门址的匹配采用了街路巷弄名+门牌号、自然村+门牌号等，楼址的匹配规则包括院落名+子区+楼牌号、自然村+门牌号等。地址匹配成功后，利用Python进行自动融合、赋码以及去重，并按照关联要求，建立门、楼、单元以及户室地址的关联。

3.2.5地址数据质检

地址的数据质检总体与地名数据质检相类似，包括空间参考系检查、库体结构检查等5个大类、10个小类、13个检查项，部分如下：

1）地址分类检查。根据地址分类结合地址分节信息，判断地址分类是否正确，如院落门址是否填写院落名称。

2）关联关系检查。根据地址类型、分节字段检查关联关系，如牡丹园的楼址不能关联郁金香郡小区的单元地址。

3）地址相交检查。包括自相交和互相交检查，采用参数化配置实现各类地址的空间检查，如门址间距不能低于3m、楼址与门址必不能相交、户室址必须与单元址或楼址相交等。

4）地名关联检查。根据地址及所关联的地名，检查空间是否一致，如道路门址是否在道路线的两侧，小区院落的楼址、单元址、户室址要求落入地名的范围中等。

4 生产与应用

以衢州市柯城区为例，共归集地名数据1286条，民政地址302488条，政法委地址635169条，资规地址61262条。采用本文的技术路线治理后，地名库数据2065条，其中点状地名740条，线状地名649条，面状地名676条，新增地名数据779条；地址库数据713025条，其中门址27193条，楼址119065条，单元地址42841条，户室地址523926条。数据治理整体效果良好，经测算，作业时间缩短30%，地名数据融合率100%，地址拆分准确率优于95%，数据融合率76.3%，数据成果错误率低于5%。

5 结束语

本文以构建标准统一、要素丰富、空间精准的地名地址库为目标，设计了多部门适用的地名地址数据库，基于空间ETL平台，研究并实现了一种多源地名地址数据治理技术，并以衢州市柯城区为例进行了试验生产。治理结果表明，该技术切实可行，能快速、高效、精准、智能地支撑地名地址数据融合工作，节约了大量的人力资源，成果质量精准可信，具备在浙江省推广复用的前景。

来源：《测绘与空间地理信息》2023年第4期

作者：戴煜炜、丁宗玮、郭睿、胡聪南、杨陈程

选稿：黎淑琪

编辑：计梦菲

校对：杨琪

审订：宋柄燃

责编：黎淑琪

（由于版面有限，文中注释内容请参考原文）

欢迎来稿！欢迎交流！

转载请注明来源：“江西地名研究”微信公众号

世良情感网

多源地名地址数据治理技术的研究与实现

热门分类