江西地名研究
关注我们,获取更多地名资讯
关注
摘要:地名地址是实现跨部门业务协同和实现数据共享的关键纽带,本文通过分析各部门地名地址数据情况,提出数据库设计优化方案,运用自然语言处理等技术,研究并实现了一种多源地名地址数据治理技术方案,构建 了标准统一、要素丰富、空间精准的地名地址库。
关键词:地名地址;数据治理;ETL;自然语言处理
0 引言
近年来,浙江省以数字化改革为抓手,全方位推动省域治理方式重大转型。地名地址作为识别空间的符号,关系着国防建设、经济发展、公共服务,是支撑数据空间化、实现跨部门业务协同和数据共享的关键纽带。当前地名地址普遍存在多头管理、各自为政的情况,数据重复采集严重,因此开展地名地址数据治理工作,构建标准统一、要素丰富、空间精准的地名地址库迫在眉睫。
对于地名地址数据治理,已有多篇文献进行了研究。赵骞等从测绘、民政、工商需求导向入手分析了多部门地名地址整合与协同服务方法;李琴等围绕民政、测绘、公安三部门数据管理探讨了宁波市地名地址数据建设标准;马春林提出了地名地址数据融合、预处理、数据去重、标准化、实体匹配的技术路径;陈再辉探索了FME在地名数据更新和融合模式中的应用。虽相关学者研究不少,但在数源选择、数据库体设计、治理方法等方面仍有广阔的研究前景。
本文以衢州市地名地址治理为例,分析存量数据情况,融合各数源特点和优势,利用空间ELT平台,采用自然语言处理技术,研究并设计一种便捷、自动的地名地址数据治理方法,积极探索“一地创新,全省复用”的模式。
1 治理目标
基于存量地名地址数据,运用数据清洗、匹配、比对、去重等数据治理技术手段,解决编码不统一、描述不准确、空间化不完整等问题,全面建成标准规范、信息准确、数据鲜活的地名地址数据库,构建空间治理中的多跨协同应用桥梁,更好地服务省域空间治理数字化平台衢州节点建设,为最终建成“空间数字化、数字空间化、协同网络化、治理智能化”的空间治理体系提供坚实支撑。
1.1 总体要求
1)数据唯一性。全面消除不规范地名以及地名歧义等问题,确保数据唯一存在,实现有房必有址、一地一名、一址一号。
2)空间准确性。完成地名地址数据上图入库,依托高精度基础测绘成果,全面提升数据空间精度。
3)要素关联性。完善要素关联关系,建立地名和地址的关联,门、楼、单元、户室的不同地址类型的从属关联以及要素历史关联。
4)应用广泛性。地名地址库体设计融入部门特色需求,增强部门间数据协同能力,增加数据应用广度。
1.2 数据收集和分析
衢州地名地址的命名、采集、使用和管理涉及了多个部门,民政局作为地名地址的主管部门,负责地名地址的命名以及标准地址库建设;政法委聚焦基层治理形成了基层治理全量地址库;自然资源和规划局(以下简称“资规局”)面向公共GIS服务采集了地名地址库。本次共归集地名地址数据约420万条,其中市民政局约100万条,市政法委约300万条,市资规局约20万条。各部门数据情况对比分析见表1。
1.3 库体设计
综合考虑数据的法定性、准确性和鲜活性,衢州市地名地址库以民政局、政法委地址库的库体结构为基础构建,数据库采用ArcGIS Geodatabase格式(.gdb)。
地名数据库,基于民政部《地名分类与类别代码编制规则》(GB/T 18521—2001),根据空间特征分为点状、线状以及面状地名。基础属性有唯一标识码、行政区划代码、省级名称、市级名称、区县级名称、乡镇街道名称、村社区名称、标准地名、地名类型等;扩展属性有经度、纬度、宽度等。
地址数据库,基于《浙江省“基层治理四平台”标准地址库建设技术规定》,在门、楼、户室地址的基础上增设单元地址,包括标准地址和全量地址。基础属性有标识码、地址全称、标准地址、省级区划名、设区市区划名、县级区划名、乡镇(街道)级区划名、类行政区域名、村/社区名、组/自然村名、街路巷弄名、门牌号、院落名、子区名、院内道路名、院内门牌号、楼牌号、建筑物名、单元门号、楼层、户室号等;扩展属性有兴趣点名称、照片、户主、地址用途等字段;关联属性有政法委标识码、民政标识码、所属门址标识码、所属单元标识码等。
2 关键技术应用
2.1 空间ETL平台
FME是一款强大的数据集成平台,为读写、存储、处理和转换各种空间数据提供了一套完整访问空间数据的解决方案,支持336种不同的格式,包含500多个转换器,无须编程即可快速、高质量、多需求地进行各种数据处理工作。本文基于FME Sever平台,制作地名地址数据提取、分节、融合、转换、质检等38个处理工序,并发布数据治理服务,形成自助、实时和自动化处理的数据治理链路。
2.2 Python
Python凭借着批量处理、操作简单、入门快、效率高、可跨平台且植入性高、稳定成熟等众多优点,拥有众多开放的算法库,诸如ArcGIS、FME等主流空间数据平台均已支持Python。本文将Python与FME紧密结合使用,实现地名地址数据的文本替换、属性计算、转换、质检等一系列操作。
2.3 地址识别技术
地址识别是数据治理中融合和匹配的关键环节。中文分词技术,以词作为基本单元,可实现对文本进行词语的自动切分,并形成词语项集。结巴分词(Jieba)作为常用的自然语言处理分词工具,基于HMM模型开发,拥有精确模式、全模式、搜索模式3种,具备词性标注能力,支持自定义词库,可实现一定程度的未登录词识别,基于Python编写,能嵌入FME平台使用。正则表达式,是一种能够匹配一个或多个字符的模式字符串,由一系列普通字符和元字符组成。在地址识别拆分中,地名识别采用结巴分词,而楼牌号、单元号、楼层以及户室号的识别采用正则表达式,进而实现地址描述的精准识别和拆分。
3 设计与实现
3.1地名治理设计与实现
3.1.1总体设计
地名治理以民政局的行政区划、标准地名、政法委地址库、自然资源和规划局的天地图电子地图以及1∶2000库为基础,通过数据预处理、地名词库构建、地名数据融合以及数据质检环节,完成标准地名数据库构建。技术路线如图1所示。
3.1.2地名数据预处理
地名数据预处理运用数据提取、地名类型检查、地名图形分类等操作,最终形成民政地名数据、政法委地名数据以及测绘地名数据。地名数据提取过程中,需根据所提取的字段类型进行词性标记,为构建地名词典提供基础数据。如道路名称标记为street,建筑物名称标记为building_name,院落名标记为yard_name。测绘数据作为数据空间化的核心载体,需提取道路结构线、水系线、水系面、居民地范围面等数据。
3.1.3地名词库构建
地名词库构建将民政地名数据、政法委地名数据以及测绘地名数据进行汇总、去重后,融入区划地名,生成地名词库和标准地名文件。地名词库用于地址的识别拆分,标准地名用于统一地名地址数据中的规范名称。如某小区民政法定名称为“米兰春天小区”,但政法委、测绘地名地址库中存在“华都米兰春天”“米兰春天小区”“米兰春天”等表述,需完成名称标准化后方可进行数据融合。
3.1.4地名数据融合
地址数据融合采用GeometryFilter、FeatureMerger等转换器,将地名数据按照点、线、面3种图形类型,依次与高精度的测绘数据成果进行匹配、融合以及空间落图。点状地名将与测绘的兴趣点和居民地点进行匹配融合;线状地名将依次与测绘的道路结构线(单线)、河流结构线、桥梁、水系线以及道路结构线(双线)进行匹配融合;面状地名将先后与测绘的湖泊池塘水库、小区、地名以及政法委的地名进行匹配融合。对于匹配失败的地名要素,则大致生成空间图形,便于后续修改。地名数据融合后,将根据库体设计完成库体数据整体转换以及相应属性字段(经度、纬度、长度等)的自动赋值计算。
3.1.5地名数据质检
地名的数据质检包括空间参考系检查、库体结构检查、完整性检查、属性检查、空间检查等5个质量元素检查。具体包括大地基准、图层分类定义、属性字段定义、数据完整性、逻辑正确性、属性唯一性、属性正确性、空间拓扑检查及空间定位精度9个质量子元素检查。在FME中组合使用DuplicateRemover、LineOnAreaOverlayer等转换器,完成地名成果的自动化、智能化质检。
3.2地址治理设计与实现
3.2.1总体设计
地址治理以民政局、政法委、资规局三部门的地址库为基础,通过地址识别拆分、地址标准化、地址数据融合以及数据质检,完成地址库的构建。技术路线如图2所示。
3.2.2地址识别拆分
为实现多源地址的融合,需对已归集的地址数据中的描述型地址和复合型地址进行拆分。
1)描述型地址识别拆分。描述性地址,即仅有地址描述,没有地址分节信息的地址,此类情况多数存在于民政地址。以“乐业景观小区A9幢4号”地址为例,在FME中使用PythonCaller转换器,利用结巴分词和正则表达式,可对该地址精准识别为“乐业景观小区(yard_name)/A9幢(building_num)/4号(home)”,其中yard_name、building_num以及home分别对应院落名、楼牌号以及户室号。在治理过程中,会出现识别失败的情况,如“戴家村下周25号”,被识别“戴家村(community)/下(f)/周(nr)/25号(door)”,其中的“下周”未识别为自然村(village),原因为地名词库中不含“下周”,补充词库即可正确识别拆分。在新街道治理中,32244条数据中,未识别405条,识别率达98.75%。
2)复合型地址识别拆分。复合型地址是指一个地址中包含了多个地址信息,如“西安古街260—264号”,包括了“西安古街260号、262号、264号”3个地址。此类地址在民政以及政法委地址库中均有存在。通过FME提供的TestFilter和PythonCaller转换器完成地址的拆分。
3.2.3地址数据标准化
根据地名治理中生成的地名词库,完成对民政、政法委以及资规地址数据的名称标准化替换,为多源地址数据匹配融合消除障碍。
3.2.4地址数据融合
地址匹配融合基于Matcher转换器,暴露匹配字段,完成数据融合。针对不同的地址类型,制定不同的匹配策略,如门址的匹配采用了街路巷弄名+门牌号、自然村+门牌号等,楼址的匹配规则包括院落名+子区+楼牌号、自然村+门牌号等。地址匹配成功后,利用Python进行自动融合、赋码以及去重,并按照关联要求,建立门、楼、单元以及户室地址的关联。
3.2.5地址数据质检
地址的数据质检总体与地名数据质检相类似,包括空间参考系检查、库体结构检查等5个大类、10个小类、13个检查项,部分如下:
1)地址分类检查。根据地址分类结合地址分节信息,判断地址分类是否正确,如院落门址是否填写院落名称。
2)关联关系检查。根据地址类型、分节字段检查关联关系,如牡丹园的楼址不能关联郁金香郡小区的单元地址。
3)地址相交检查。包括自相交和互相交检查,采用参数化配置实现各类地址的空间检查,如门址间距不能低于3m、楼址与门址必不能相交、户室址必须与单元址或楼址相交等。
4)地名关联检查。根据地址及所关联的地名,检查空间是否一致,如道路门址是否在道路线的两侧,小区院落的楼址、单元址、户室址要求落入地名的范围中等。
4 生产与应用
以衢州市柯城区为例,共归集地名数据1286条,民政地址302488条,政法委地址635169条,资规地址61262条。采用本文的技术路线治理后,地名库数据2065条,其中点状地名740条,线状地名649条,面状地名676条,新增地名数据779条;地址库数据713025条,其中门址27193条,楼址119065条,单元地址42841条,户室地址523926条。数据治理整体效果良好,经测算,作业时间缩短30%,地名数据融合率100%,地址拆分准确率优于95%,数据融合率76.3%,数据成果错误率低于5%。
5 结束语
本文以构建标准统一、要素丰富、空间精准的地名地址库为目标,设计了多部门适用的地名地址数据库,基于空间ETL平台,研究并实现了一种多源地名地址数据治理技术,并以衢州市柯城区为例进行了试验生产。治理结果表明,该技术切实可行,能快速、高效、精准、智能地支撑地名地址数据融合工作,节约了大量的人力资源,成果质量精准可信,具备在浙江省推广复用的前景。
来源:《测绘与空间地理信息》2023年第4期
作者:戴煜炜、丁宗玮、郭睿、胡聪南、杨陈程
选稿:黎淑琪
编辑:计梦菲
校对:杨 琪
审订:宋柄燃
责编:黎淑琪
(由于版面有限,文中注释内容请参考原文)
欢迎来稿!欢迎交流!
转载请注明来源:“江西地名研究”微信公众号