详情

基于众源数据约束的网络地理编码精度优化方法研究

申报人:崔子镔 申报日期:2024-04-03

基本情况

2024
基于众源数据约束的网络地理编码精度优化方法研究 学生选题
创新训练项目
理学
地理科学类
教师科研项目选题
一年期
随着信息技术的高速发展,“数字城市”的发展及其包含的“智慧交通”“智慧应急”“智慧政务”等方面广受关注,相关信息所需的地理位置的准确性成为“智慧城市”发展的重要一环。由于数据来源、算法设计等方面的差异,现有的地理位置服务提供的地理位置服务存在偏差,造成了诸多负面后果。本研究将以OSM(Open Street Map)中的建筑边界数据和道路数据作为约束,以文本匹配和几何匹配相结合的方式,探索地理编码数据的优化方法,提升地理位置服务的质量。


2023-2024年度参加校级大创《顾及视觉感知的三维地图注记配置方法研究》

       2023-2024年度带队参加第十届“一站到底”防沉降大赛并荣获三等奖

指导老师为博士,副教授,硕士生导师,国家注册测绘师。主持国家自然科学基金、教育部人文社科基金等科研项目;参与国家重点研发计划、国家自然科学基金等10余项科研项目。指导大学生创新创业训练计划项目4项。发表论文20余篇。曾获“全国高等学校测绘类专业青年教师讲课竞赛”特等奖(2022年)、一等奖(2015年),河海大学二十九届教师讲课竞赛一等奖(2023年)。发表论文20余篇。国家自然科学基金、教育部留学基金函评专家。担任Applied GeographyRemote SensingSage OpenLand、热带地理等期刊审稿人。目前主要从事空间数据统计、空间数据建模、空间数据分析与模拟等GIS相关的教学与科研工作。

 

(一)科研项目

1、地理编码误差的来源、传播及其对空间制图的影响,2022-2024年,2022年,王增利,河海大学,河海大学

2、街景式隧道立体模型构建及其在隧道病害监测中的应用科研项目 ,2023-2025年,2023年,王增利,横向,河海大学

 

(二)论文

1Burglaries and entry controls in gated communitiesUrban StudiesSSCI2021Zengli WangLiu LinHaberman C PaulLiu Lin,0042098020972636

2An Adaptive Spatial Resolution Method Based on the ST-ResNet Model for Hourly Property Crime PredictionISPRS International Journal of Geo-InformationSCI2021Zhang HongZhang JieWang Zengli10(5):314

3Linking Luojia 1-01 nightlight imagery to urban crimeApplied GeographySSCI2020Liu LinZhou HanlinLan Minxuan125:102267

4Construction, detectionand interpretation of crime patterns over space and timeISPRS International Journal of Geo-InformationSCI202Wang ZengliZhang Hong9(6):339

5A spatio-temporal method for crime prediction using historical crime data and transitional zones identified from nightlight imageryInternational Journal of Geographical Information ScienceSCISSCI2020Yang BoLiu LinLan Minxuan,34(9):1740-1764

6he spillover effect of geotagged tweets as a measure of ambient population for theft crimeSustainabilitySSCI2019Lan MinxuanLiu LinHernandez A11(23):6748

7Understanding the spatial distribution of crime in hot crime areasSingapore Journal of Tropical GeographySSCI2019Wang ZengliZhang Hong40(3)

8Crime geographical displacement: Testing its potential contribution to crime predictionISPRS International Journal of Geo-InformationSCI2019Wang ZengliLiu LinZhou Hanlin8(9):383

9Could Crime Risk Be Propagated across Crime Types?ISPRS International Journal of Geo-InformationSCI2019Wang ZengliZhang Hong8(5):203

10A regression-based algorithm for frequent itemsets miningData Technologies and ApplicationsSSCI2019Jia ZiruiWang ZengliWang Zengli

11How is the confidentiality of crime locations affected by parameters in kernel density estimation?International Journal of Geo-InformationSCI2019Wang ZengliLiu Lin8(12):544

 

(三)荣誉及奖励

1、第十一届全国高等学校测绘类专业青年教师讲课竞赛,河海大学,王增利,2022年,特等奖

2、第七届全国高等学校测绘类专业青年教师讲课竞赛,河海大学,王增利,2015年,一等奖

3、河海大学第二十九届教师讲课竞赛,河海大学,王增利,2023年,一等奖

       4、《热带地理》优秀审稿人,2023
本团队指导老师王增利主要研究方向为大数据与空间数据分析,为本项目确定技术路线和相关方法,提供所研究项目有关的实验器材与装置,安排项目进程并提供技术指导,将所得成果转化为创新方法和学术论文。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
崔子镔 地理与遥感学院 遥感科学与技术 2022 制定安排计划 统筹分配任务 控制研究基础
陈文霖 地理与遥感学院 遥感科学与技术 2022 实验测试组织 记录账目进出
郭明琛 地理与遥感学院 遥感科学与技术 2022 文献资料查阅 数据分析处理
王建阳 地理与遥感学院 遥感科学与技术 2022 收集有效数据 数据分析处理
韩颖 地球科学与工程学院 测绘工程 2022 数据分析处理 阶段成果汇总

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
王增利 地理与遥感学院

立项依据

20世纪60年代,美国为配合人口普查研发出双重独立地理编码系统Dual Independent Map Encoding 简称 DME),其按照各要素的拓扑关系来组织数据,形成一个地理基础文件系统。DME的开发在地理信息技术的发展上具有里程碑的意义。20世纪80年代,我国一部分城市的规划、测绘及管理部门也相继开展了地理编码系统相关的研究和建设工作。

进入21世纪以来,我国智慧城市建设方面的投资持续增加,技术不断革新,其包含智慧政务、智慧应急和智慧交通等多方面。随着数字城市地理空间框架建设进程的不断推进,数字城市的应用已逐步渗透到政府部门、事业单位、大中型企业之中。在数字城市的应用推广过程中,存在着大批量地址数据和业务信息需要与空间信息整合,以进行基于地理位置的扩展分析。为了更好地为各行各业提供多层次、高质量、高效率的信息服务及决策支持,将各个部门分散的信息资源在空间位置中建立联系是十分必要的。而地理编码正是建立空间与非空间信息之间联系的关键几技术之一。通过地理编码,可以将工商、税务、规划、建筑等经济社会部门的资料和数据库中的地址描述转换为真实的地理坐标 (或经纬度),并映射到地图、遥感影像上,实现空间数据与非空间数据共享整合,进而可以完成对经济社会信息的分析、统计、管理、制图和可视化表示。对政府而言,相关成果能为相关部门提供实时、准确和权威的集成与融合工具,以支持政府的管理和决策。对公众而言,地理编码技术可以提供便利的地址查找工具,帮助用户实现对未知地区、地点的快速查询和情况了解,降低出行的时间成本和经济成本。

       当前的地理编码技术大多基于专业人员采集的数据构建数据库。这种方式一方面成本较高,另一方面由于固定的采集周期难以跟上城市的发展节奏,导致新建的或废弃的地址无法及时更新。针对这一问题,本项目将向公众开放获取的众源数据(主要是OSM数据)为基础,对地理编码加以几何与文本上的约束,从而提升地理编码数据的精度,降低因精度低而产生的各种实际应用上的影响。

国内现有的地理位置服务,因其数据来源、算法设计等方面的差异,使得其提供的地理位置服务存在偏差,甚至会与现实地理位置相差甚远。本文将基于众源数据约束的网络地理编码,对现有的地理编码进行分析,并采用OSM作为数据基础,以文本匹配和几何匹配相结合的方式,以提高地理编码的精度,降低因精度低而产生的各种实际应用上的影响。

1OSM数据

OSMOpen Street Map)数据是一个基于XML格式的地理数据表达模式,用于表达地理实体的位置信息和属性。OSM数据包含道路与铁路网、建筑、水体、土地利用、兴趣点、行政区边界等各类数据,以.shp等多种格式存储。

2)样本数据与测试数据的获取

       本文将通过国内现有的地图数据,例如高德、腾讯、百度地图等数据进行实验数据的获取,通过对多个文本地址在几个地图中进行检索得到其对应的多个地理坐标。summernote-img

summernote-img

3)实验模型构建:计算获取的样本数据与真实值误差,并做出其误差高斯曲线概率分布图

  本文通过对几个地图软件所获取的所有样本数据与其具体真实值求出误差,得到一个误差的随机变量后,利用高斯分布函数计算,并通过MatlabPython等工具做出其对应的概率分布图。

summernote-imgsummernote-img

4ArcGIS数据处理与分析

 本文将OSM数据导入ArcGIS制图,并将测试数据在导入数据后的ARCGIS中进行定位与显示,再对测试数据的坐标套用模型进行模型处理并在ARCGIS中进行显示与分析。通过模型演算后的每个坐标点将有一个概率圆,我们将通过查看分析所有坐标点的概率圆重叠部分进行进一步范围缩小,通过设置上下限对重叠部分中概率合最高或者颜色最深部分进行区域划分,进而继续在该区域中进行建筑物或者道路名称提取并进行文本相似度匹配。使用最终匹配后的文本进行逆地理编码,从而得出相应的地理坐标。

summernote-img

5)测试数据与真实值进行比较计算精度

  对于通过模型反演得出的地理坐标,将其与已知的真实地理坐标进行计算并比较其精度是否得到优化。

(1)众源数据

众源数据具有现势性高、传播快、信息丰富、成本低廉的特点,能够适应信息传播快、数据实时性要求高的数据生产趋势,因此也成了专业地理信息的重要补充,并被广泛地应用于相关研究。与传统方式获取的地理空间数据不同,众源数据由公众参与贡献,数据获取过程缺乏统一标准的约束,存在数据质量参差不齐、噪声信息多等问题。最新的研究报告表明,众源数据(主要是OSM数据)质量在全球范围内具有很大的不均匀性,但是总体的趋势是一致的,即数据质量是一直在提升的。在欧洲(特别是西欧)和北美地区,OSM数据除了位置精度,其余各方面均可以与官方制图数据媲美,特别是在兴趣点的完整性、准确性和更新频率等方面,OSM数据是优于官方制图数据的。在亚洲和其他洲的一些发展中国家,OSM数据的完整性正在逐渐饱和,但是其他质量指标方面距离官方数据还有不小的差距。需要指出的是,现在所有的研究工作都是针对单一地图要素进行质量评价的,至今没有针对多个地图要素同时进行质量评价的研究工作[1]

2)地理编码

地理编码是为识别点、线、面的位置和属性而设置的编码,它将全部实体按照预先拟定的分类系统,选择最适宜的量化方法,按实体的属性特征和几何坐标的数据结构记录在计算机的储存设备上。地理编码又包含正向地理编码和反向地理编码。正向地理编码服务实现了将地址或地名描述转换为地球表面上相应位置的功能。正向地理编码提供的专业和多样化的引擎以及丰富的数据库数据使得服务应用非常广泛,在资产管理、规划分析、供应物流管理和移动端输入等方面为用户创造无限的商业价值。反向地理编码服务实现了将地球表面的地址坐标转换为标准地址的过程,反向地理编码提供了坐标定位引擎,帮助用户通过地面某个地物的坐标值来反向查询得到该地物所在的行政区划、所处街道、以及最匹配的标准地址信息。

随着信息化技术的发展,中国社会正致力打造数字经济,通过数字化、互联网、物联网等技术的落地,实现数字孪生智慧城市建设的构想。随着智慧城市建设的推进,传统的以技术为导向的智慧城市建设面临着设备杂乱、条块分割、数据烟囱等问题,而地理空间编码技术将真实空间与数字空间融合,实现城市规划和管理等领域的城市空间信息与非空间信息的整合,使各类地理实体能够在城市范围内得到唯一的空间位置标识。利用地理编码工作统筹各类城市感知单元的空间位置信息、数据流转和运行维护全过程,将在推进新型智慧城市感知体系建设方面起到巨大的推动作用。如马昭辉、张璐[2]使用地理编码技术,在空间关系地址模型及中文地址解析等的基础上构建地理编码服务层,以网络接口的方式为智慧六盘水时空大数据平台及接入的各系统提供地理编码服务,用于市场监督管理领域数据库建设,有效推动六盘水市城市建设。

3)精度优化

不同地图服务商提供的地理编码规则和数据源不同,导致地理编码结果也有所差异,而这些差异在现实生活中将可能导致很复杂的情况,为了减少编码结果对现实生活的影响,优化地理编码结果,提高精度成为必须重视的一部分。

许多学者对地理编码技术进行了研究,如廖薇薇[3]等利用系统聚类和随机森林法对多源在线地理编码服务结果进行优化,改善了编码精度,提高了海量社会经济信息数据转换为空间信息数据的效率;程钢[4]等通过对比国内主流在线地图API,提出了优化对策;张剑[5]等利用精细化地名地址库、地名地址特征分词库以及基于用户搜索行为的大数据分析来提高地址匹配度;陈志云[6]等利用大数据融合技术,将POI点与旅游用户行为大数据进行融合,进一步分析了梅州市旅游文化特点,优化了旅游资源发展格局;田沁[7]等对比分析了主流地理编码服务的质量情况; Yin Z[8]等结合联合典型的地理编码工作流程和基于快速区域卷积神经网络(Faster R-CNN)模型的建筑物检测,以创建一种新的地理编码方法;Yue Cui[9]等通过比较用户生成的市场坐标与基于用户提交的市场地址的多个地理编码服务的地理编码坐标来验证农贸市场位置的坐标。

参考文献:

[1] 范红超,孔格菲,杨岸然众源地理信息研究现状与展望    [J].  测绘学报,  2022  51  (07):  1653-1668.

[2] 马昭辉,张璐. 地理编码技术在智慧六盘水时空大数据云平台中的应用[J]. 长春工程学院学报(自然科学版) 202223 (03): 64-67.

[3] 廖薇薇,柳林,周素红,等.多源在线地理编码服务分类优化模型[J].热带地理,201838(2):255-263

[4] 程钢,郭玉祥,贾宝,等.国内主流在线地图API分析及优化对策研究[J].测绘工程,201322(6):4-8

[5] 张剑,叶远智,翁宝凤.面向智慧城市的高精度地名地址匹配方法[J].测绘与空间地理信息,201942(11):166-169

[6] 陈志云,刘敏纯,钟广锐,等.基于多源数据的梅州市旅游资源综合评价分析[J].地理空间信息,202119(4):51-55

[7] 田沁,巩玥,亢孟军,等.国内主流在线地理编码服务质量评价[J].武汉大学学报(信息科学版)201641(10):1 351-1 358

[8] Yin Z Ma AGoldberg DW. A deep learning approach for rooftop geocoding. Transactions in GIS. 2019; 23: 495–514

[9] Yue CuiA systematic approach to evaluate and validate the spatial accuracy of farmers market locations using multi-geocoding servicesApplied GeographyVolume 412013Pages 87-95ISSN 0143-6228

1.将文本相似度匹配和地理几何匹配结合使用,从两方面对输入的地址文本进行约束,减小较大误差产生的同时提高误差限值。

2.使用OSM(开放街道地图OpenStreetMap)数据作为研究基础。OSM数据具有高开放性的特点,其数据内容开放且由全球的贡献者共同Canuck维护和更新,用户有权分享并修改数据。其次OSM数据包含了各种级别的地理细节,从城市街道到乡村路径,再到建筑物和自然特征,都可以被记录下来,详细的地理细节有助于在地理编码文本匹配阶段先排除如因街道、道路匹配错误而产生的高误差。

3.依据优化后的特征模型提高地理编码的精度,提高地理位置的准确性,以减少因地理位置误差而产生的时间、人力、资源的浪费。

1.技术路线

 summernote-img

2.拟解决问题:

本研究将使用OSMOpenStreetMap 开放街道地图)、高德地图、百度地图、腾讯地图,获取常州市金坛区西城街道的地理信息数据。在研究过程中需要解决多源数据的提取以及整合,以便于使用ArcGIS进行后续的研究。其次需要对PythonMatlab程序设计语言进行深度学习,以便于地理编码文本相似度匹配的算法设计和优化,以及误差高斯曲线概率分布图的绘制。

3.预期成果

a.研究得出有效的去除粗差(如因街道、道路匹配错误而产生的高误差)的方法;

b.结合目前已有的研究,得出有效的文本约束和几何约束条件,将其结合设计出新的地理编码模型;

c.提高项目成员科学科研素养,锻炼科学严谨精神;

d.提交一份完整严谨的项目实验研究报告;

e.争取在相关期刊上发表关于地理编码精度优化的论文 1-2 篇。

一、前期准备

    第一阶段:20243-4: 立项申报阶段,学习相关文献,大致理解相关知识体系,积极与指导老师交流,撰写项目申报书并进行修改。

第二阶段:2024 4-6: 阅读大量文献并学习相关基础知识,夯实原理和基础,对项目内所要求的理论知识(包括地理编码、OSM数据)进行深一步了解; 熟练掌握PythonArcGIS两种工具;在此阶段中不断与老师积极交流沟通,完善自身知识体系。

二、项目实施

第一阶段:20246-7: 设计实验模型与方案,做好实验准备工作。学习Python相关编程和ArcGIS操作,在指导老师的带领下进行数据相关处理。

第二阶段:20247-10: 在指导老师的带领下进行样本实验,建立高斯曲线概率模型,对实验数据进行处理、分析,对实验的结果进行分析和总结。

第三阶段:202410-12: 在指导老师的带领下进行精度实验,在基于OSM数据基础上对实验数据进行处理、分析,对实验精度进行分析和总结。

第四阶段:20251-2: 撰写相关论文,指导老师对初步完成的论文提出修改意见和建议,定稿,将现阶段成果进行发表。

第五阶段:20252-4: 整理和项目相关的各项研究成果,形成书面材料,编写项目总结报告,相关成果进行论文发表。 

1.项目指导老师具有丰富的地理编码方面的研究经验,可以为团队项目的研究提供宝贵建议。同时,指导老师正在进行相关项目研究,可以为本项目开展提供了实验基础与经验基础。

2.团队成员来自遥感、测绘两专业,对自己的专业有着充足的学习热情且团队成员在各自专业的学习中,学习认真负责,可以充分发挥专业优势,将专业学习与研究相结合,更好地完成整个研究。

3.团队成员都系统的学习过PythonMatlab等编程语言,具有基础的编程能力和一定的编程思维。

4.团队成员在老师的指导下阅读过多篇相关论文,了解了地理编码国内外的研究现状,对整个研究过程有了基础的认知,并对本项目的研究有着浓厚的研究兴 趣。

       5.项目负责人有相关的研究经验,有一定的能力解决实际问题,可以为小组成员提供帮助。

已具备条件:学校注重学生创新创业能力,鼓励学生积极参与创新创业训练,为学生提供良好的经验交流平台,促进创训队伍之间的交流与互补,积极解决学生创新创业训练中出现的问题;校内图书馆提供大量纸质资源和电子资源,大大减少搜索国内外文献浪费的时间,为大学生创新创业提供方便的获取途径。

尚缺少的条件:项目成员对于Python的编程能力稍有欠缺,未接触过ArcGIS软件,不能熟练操作,有关地理编码的知识还需进一步学习巩固。

       解决办法:项目成员将结合平时的课堂学习,充分利用课余时间去充实完善自身的知识储备以及专业素养;了解ArcGIS的地图工具,并对其进行实际操作;深入进行Python编码学习,将其与地理编码紧密联系,运用到实验中去。 

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 9000.00 项目支出 6100.00 2900.00
1. 业务费 5000.00 总额 2600.00 2400.00
(1)计算、分析、测试费 3500.00 数据处理 2000.00 1500.00
(2)能源动力费 1200.00 交通费 600.00 600.00
(3)会议、差旅费 0.00 0.00 0.00
(4)文献检索费 0.00 0.00 0.00
(5)论文出版费 300.00 论文出版费 0.00 300.00
2. 仪器设备购置费 3000.00 硬盘、U盘 3000.00 0.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 1000.00 文献资料印刷 500.00 500.00
结束