作 者 信 息
马 强1,王亮绪2,吴昊圆1,龚 鑫1,李卓勋1
1.上海师范大学 环境与地理科学学院,上海 200234;2.上海师范大学 城市发展研究院,上海 200234
【摘要】城市功能区的动态监测可为城市空间结构分析、公共资源的配置以及城市规划提供决策支持。利用POI数据进行城市功能区的识别,多侧重于城市功能区研究单元的划分,很少涉及POI权重的定量分析和城市功能区的时空变化分析。本文以上海市为例,基于TF-IDF算法提出了一种POI赋权进行城市功能区识别与分析的方法:首先基于网格单元,利用TF-TDF算法计算POI权重,然后通过POI权重与频率密度计算,进行城市功能区的识别,建立城市功能区转移矩阵,进行城市功能区的时空变化分析。研究结果表明:基于公共认知度对各类POI赋权具有不一致性,利用TF-TDF算法计算POI权重克服了传统主观赋值法的过于主观性,对于城市功能区的判别更加精准;基于网格单元的城市功能区识别更加准确,从时间序列角度出发,城市功能区的扩散与演化更加直观;上海市2008—2018年,城市化水平较快,无数据区由51.00%下降到19.52%,工业功能区数量下降,商服和公共功能区数量大幅增加,与上海市实际状况相一致。通过研究可为城市发展规划和产业结构合理布局提供参考依据。
【关键词】POI;TF-IDF算法;城市功能区;转移矩阵
【中图分类号】TU98
【文献标识码】A
【文章编号】1672-1586(2021)04-0016-07
引文格式:马 强,王亮绪,吴昊圆,等.基于POI权重与频率密度的上海城市功能区变化分析J].地理信息世界,2021,28(4):16-22.
正文
0 引 言
伴随着城市化的快速推进,公共资源不平衡、交通拥堵、住房紧张等一系列城市问题凸显。如何优化城市空间功能结构,统筹职能分区,合理配置空间资源,实现城市可持续发展成为研究热点。城市内部复杂空间结构既相互联系,又逐渐分化为以不同功能主导的区域,形成有机的统一体。城市功能区的划分与识别为城市规划者和管理者提供了一种新思路,对用地选址、智慧城市建设等提供帮助,达到“人 - 环境 - 城市”三赢的结果。
快速发展的大数据技术和多源化数据的涌现为研究城市空间结构提供了新视角,通过挖掘、整合、分析,为大范围、精细化的城市功能区时空分析研究提供可能。学者利用社交媒体、手机信令、POI(Points of Interest,兴趣点、移动轨迹等多源异构数据进行城市功能分析。在国外,Soto等使用手机基站网络产生的信号,设计了一个土地利用情况的自动识别系统,根据手机基站的位置对地图进行分割,将马德里市分为了5种类型的功能区。Toole等同样使用手机用户产生的动态数据来探讨人口的时空动态变化与土地利用状况之间的关系,完善城市土地的分区规则。
近年来国内得益于高德地图等的迅速发展,产生了大量的POI数据,POI描述了地理实体的空间和属性信息,包括实体的名称、类别、属性、地址和坐标等,有很强的对实体位置的描述能力,能在一定程度上反映城市各类活动,为复杂的城市研究提供新的视角。YUAN等基于出租车轨迹数据及POI数据对北京市城市功能区进行识别。LONG等根据POI结合人群出行特征推断城市功能区类型。韩昊英等基于POI数据,结合公交站台流量数据、居民日常出行行为,构建了城市功能区识别模型。冯然等基于样本数据,构建POI数据与城市功能区类型之间的逻辑回归模型,判别功能区。
王俊珏等以OSM路网数据划分城市研究单元,对POI数据进行核密度分析,基于POI的空间自相关性识别城市功能区。丁彦文等对比了核密度带宽对城市功能区识别结果的影响。李强等对POI数据进行权重设定和核密度分析,基于网格单元判别城市功能区。骆少华等探究了不同尺度网格单元下城市功能区识别的区别。
上述研究中,POI作为判读城市功能区的基础数据,权重设置不尽相同。部分研究仅单纯依据城市功能区单元内的POI数据等级进行城市功能区划分,城市功能区识别结果与真实值误差较大。在研究中多参考赵卫峰等对各类POI的公共认知度排序,结合个体特征进行赋值,具有一定的主观性。不同类型城市之间,不同繁华程度地区之间的各类POI权重的赋值过于简单。在研究内容上,多侧重城市功能区的识别和验证,如通过比较基于OSM路网、泰森多边形、渔网来划分的功能区研究单元,提出各种方法的优缺点;通过对POI核密度带宽、渔网单元的大小、城市功能区频数密度数值区间等进行探讨。
由于在POI权重的设置上,未考虑其数量和空间分布状况的叠加影响,且不同年份不同类型POI数据量差别较大,在计算中容易被其他数据湮没,因此引入机器学习中经常用于信息检索与数据挖掘的加权技术TF-IDF算法。此外,受限于数据的获取问题,前人研究没有基于长时间序列的城市功能区变化及驱动因素分析。
基于此,本文以上海市为研究区域,通过2008年和2018年两期上海市POI数据,利用TF-IDF算法,计算各类POI权重,通过频数密度,识别城市功能区。利用混淆矩阵对精度进行验证,通过城市功能区转移矩阵分析上海市2008—2018年的城市功能区变化状况,以期为上海市城市规划和政策制定提供参考。
1 研究区域与数据
1.1 研究区概况
上海市是中国经济、金融、贸易、航运、科技创新中心,是长三角城市群核心城市。上海市2018年城镇人口化率达88.10%,是中国城镇化率最高的地区之一。下辖16个区,总面积达6340.5 km²,其中黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区为上海市区。
1.2 数据来源
上海市POI数据。2008年高德POI数据通过北京城市实验室网站 获得,共计93455条。2018年高德POI数据来源为利用爬虫技术获取的数据,共有1340269条数据。POI数据内容包括地址、经纬度、名称、所属类别等基础信息。由于原始数据量较大、划分类别过多,对于城市功能区的识别没有具体分类意义。因此首先要进行POI清洗,剔除和功能区识别不相关的POI(包括公共厕所、交叉口、自然地名、院门、门牌等无分类意义POI)。通过数据清洗,分类筛选,根据《城市用地分类与规划建设用地标准》(GB50137-2011)和上海市实际状况,将POI分为6大类,作为城市功能区识别的基础数据(表1)。通过定义投影,坐标转换等预处理步骤,得到上海市POI的空间数据(图1)。
图 1 上海市 POI 分布
Fig.1 The spatial distribution of Shanghai POI
表 1 POI 分类
Tab.1 POI classification standards
2 研究方法
本研究采用TF-DF模型,从局部和整体计算POI的权重,并利用频率密度进行城市功能区的划分。此外,研究基于GIS空间分析和城市功能区转移矩阵来揭示上海城市功能区的分布特征和演变规律。
2.1 TF-IDF 算法
TF-IDF在机器学习中经常用于信息检索与数据挖掘,可用来估计一个字词在一个文件集中的重要程度,具有较好的分类能力。TF表示词频,IDF表示逆文本频率指数。研究将每个空间网格单元视为单个文件,单个文件中POI的类别视为词语,因此分析各空间研究单元的类别就转化成求解文件集中的各词语所占权重,公式如下:
式(1)中,tfi,j为各个空间网格单元内i类POI的数量占比i为某一类POI;j为空间网格单元;为 i 类POI 在 j 空间网格单元出现的次数;为空间网格单元j所有POI出现次数之和。式(2)中,idfi为i类 POI在全部空间网格单元出现次数百分比的对数;D为空间网格单元总数;为包含某类 POI 的空间网格单元总数。式(3)中,tfidfi,j为i类POI在j网格单元内的加权值。
2.2 城市功能区识别
利用公式计算出每一个单元内各类POI加权后的值,即频率密度,将无POI的区域筛选出来,划分为无数据区;当某类POI权重超过50%,即将该类POI的属性设置为功能区的属性;当某类POI的权重没有超过50%时,将其中某两类POI权重处于20%~50%,命名为该两类POI类别的联合功能区,其余的则划为综合功能区。
式中,Fi为i(i 为6种功能区)型POI的频率密度;tfidfi,j为i型POI在网格单元内的加权值;Dj为j网格单元6类POI权重之和。
2.3 城市功能区转移矩阵
城市功能区转移矩阵反映了某一区域某一时段期初和期末各城市功能区之间相互转化的动态过程信息,它不但包括静态的一定区域某时间点的各类城市功能区数量,而且含有更为丰富的期初各城市功能区转出和期末各城市功能区转入的信息。城市功能区转移矩阵通用公式为:
式中,S为城市功能区总数量;n为转移前后的城市功能区类型数;i和j(i,j=1,2,...,n)别为转移前与转移后的城市功能区类型;Sij为转移前的i类城市功能区转换成转移后的j类城市功能区的数量。矩阵中的每一个元素的行标(i 类城市功能区)表示该空间网格的原始功能区类型,矩阵中的每一个元素的列标(j 类城市功能区)表示该空间网格的当前功能区类型。
3 城市功能区识别与验证
3.1 POI 权重计算
POI作为一个点状地理实体,其权重的赋值多依据公共认知,但是由于数据类型复杂,数据量大,该方法所呈现的效果与研究者设置的权重密切相关,具有过度的主观性。在 TF-IDF算法中,将每一个研究单元当作个体看待,充分考虑其单元内POI的组成,并结合各类POI在全部空间中的分布,即可得出每一个研究单元,各类POI的权重值。采用TF-IDF算法,从局部和整体对POI进行统计分析,能客观地得出 POI 的权重。由于数据量的区别,2008年和2018年各类POI的IDF值不同,为了进行比较,对其进行标准化处理。从 2008—2018年,公共、商服、绿地类POI的IDF值具有明显下降,表明这两类POI在空间上的分布更加分散,更多的研究单元中出现了该类POI。这与上海市的基础设施建设、城市经济发展以及绿地公园建设密切相关。居住类POI的IDF值明显提升,表明居住类POI在空间上呈现与商服、绿地、公共类POI相反的趋势,具有明显的收缩性,与棚户区改造,居住区更加集中,和其他类型POI的大幅度增加相关。工业类和交通POI权重不变,表明该类型POI数量和分布的变化符合整体变化趋势,不具有过于突出的效应(表2)。
表 2 不同类型 POI 的 IDF 值
Tab.2 IDF values of different types of POI
3.2 城市功能区识别结果
城市功能区类型主要由单位空间中的POI类别和数量决定。按照1km×1km将上海市网格化,共获得7275个空间网格单元。基于TF-IDF算法的识别结果,进行城市功能区识别,得到6类单一功能区、16类混合功能区、1类无数据区。2008年城市功能区以工业功能区最多,其次分别是商业和公共功能区;2018 年城市功能区则以商业为主,其次是工业和公共功能区。上海城市功能区空间结构及分布变化较大,单一功能区从2008年占城市功能区总量的40.95% 上升到 2018 年的57.32%;混合功能区从2008年的8.06% 上升到2018年的23.16%;无数据区从2008年的51.00%下降到2018年的19.52%。城市功能区变化趋势显示上海市市区和郊区的城市化阶段不一,郊区处于城市化初级阶段(图2)。
图 2 城市功能区统计
Fig.2 Statistics on urban functional areas
3.3 城市功能区验证
通过随机抽样的方法选择2018年部分功能区进行精度验证,以评价该方法在城市功能区划分过程中的可信度。随机选择了50个空间网格单元,与高德地图叠加,判断是否和该地的实际用地功能一致。经与实地状况验证,识别结果如下:15个较符合,35个完全符合,准确率达到85.0%(图3)。图中a点识别结果为居住商服,实际用地功能为小区及周边道路上的商店,判别结果完全符合。图中b点识别结果为工业交通,实际用地功能为申嘉湖高速与沈海高速交口、上海旺侬园艺有限公司,判别结果与实际用地功能状况一致。图中c点识别结果为公共商服,实际用地功能为上海师范大学及附近商业街,判别结果完全符合。图中d点识别结果为绿地,实际用地为海湾国家森林公园部分园区,判别结果完全符合。
图 3 上海部分城市功能区实地验证结果对比
Fig.3 Comparison of field verification results in some urban functional areas in Shanghai
4 城市功能区变化分析
4.1 城市功能区空间变化分析
可以看出,2008年,上海市城市功能区中的单一功能区具有明显的多点集中态势,相同类型的单一功能区具有明显的集中效应(图4),工业与商业单一功能区的分布具有明显的边界,功能区之间的混合程度不高。混合功能区主要分布在市区、沿海地区、沿重要交通中心地区,这些区域经济比较发达,城市化进程比较早,各类设施比较丰富(图5)。无数据区占比达到51%,主要集中在郊区的非中心地带,这里发展较落后,城市化水平较低。2018年,上海市空间分布上以商服、工业、公共3大类和相关混合功能区为主,这与上海市城市用地功能的占比高度符合。市区单一功能区中商服功能区最多,工业功能区几乎消失,郊区的单一工业功能区在其他功能区的分割下,由块状变为点状,分散分布。混合功能区数量大量增加,且集中在近郊,城市化使得功能类型复杂化。无数据区集中在东南沿海和崇明北部,主要是湖泊、河流、耕地、滩涂等区域(图6)。
图 4 城市单一功能区识别结果
Fig.4 Recognition results of city single functional area
图 5 城市混合功能区识别结果
Fig.5 Recognition results of urban mixed functional areas
图 6 上海 2008—2018 年城市功能区转移矩阵
Fig. 6 Shanghai 2008-2018 City Function Zone Transfer Matrix
上海市中心城区商业用地从2008—2018年,具有明显的扩散趋势,近郊的商服功能区与市区连成一片,远郊的商服功能区也由点扩散成团,如松江新城、南桥新城、金山滨海地区,商服功能区整体上呈现出近郊快速蔓延,其他地区多点开花的趋势。工业单一功能区在市区和近郊逐步减少,主要向商服和工业商服混合功能区转型,如近郊的产业园漕河泾开发区。公共及相关功能区的分布比较均衡,混合度较高。作为公共服务类机构,在选址过程中,着重考虑其对周边的辐射能力,因此空间分布分散,且分布密度加大。绿地类功能区则集中在郊区,与近年来上海市大力建设具有城市游憩功能的郊野公园密切相关,如浦江郊野公园,滴水湖,青西郊野公园。居住功能区扩散幅度小,数量小幅增加,变化不明显,主要是由于居住功能区往往与商服、公共等功能混合分布。交通类功能区在2008年分布零散,沿道路分布,到2018年则呈现出明显的沿绕城高速的线状和以重要交通场站的块状分布,如上海虹桥站和浦东机场。
4.2 城市功能区转移矩阵变化分析
通过城市功能区变化转移矩阵,可以看出,2008—2018 年,上海市各城市功能区类型在过去的10年间发生了较明显的相互转化,其中变化较大的是无数据区、工业、商服、公共及与之相关的混合功能区。
从不同类型来看,无数据区变化最大,其中645个单元转换成工业功能区,554个单元转换成公共功能区, 341个单元转换成商服功能区,此外则主要转换成交通、居住、绿地、公共商服、公共工业类功能区。上海市近年来着重发展郊区建设,提出了郊区新城,郊区城市化进程推进迅速。工业功能区变化则主要与商服POI大量增加相关,随着上海市经济结构的变化,第三产业迅速发展,第二产业占GDP比重逐年下降,向外围郊区及周边城市迁移,工业功能区数量有所下降。商服功能区的变化则以其他类功能区转入为主,本身转出的较少,从工业、公共、公共商服、工业商服混合功能区转入商服功能区的较多。这主要得益于上海市商业和服务业的迅速发展, 2018年上海市GDP中,第三产业占比高达69.9%。公共功能区有124个转变成商服功能区,多数是以公共设施为基础,集聚人口资源,带动商服经济发展。此外与公共功能区相关的混合功能区增长较多,说明公共设施作为配套设施,本身的扩展性相对较弱,但是能够集聚人口、经济等因素,产生新的POI,并对城市功能区的主导功能产生影响。绿地功能区的数量有所增加,其中2018年绿地中67.3% 主要来源于无数据区的转变,如滴水湖沿岸公园、海湾国家森林公园、浦江郊野公园。近年来,上海市大力开展生态城市建设,注重郊区功能发展,聚焦都市游憩需求,塑造特色郊野活动空间。交通功能区的转化则明显看出,上海市交通建设相对完善,变化量较小。居住功能区受城市复杂空间结构的影响,与其他城市功能类型混合,转出多为商服功能区,转入则以无数据区为主。
5 结束语
本文以上海市为例,根据空间网格对城市功能区进行划分,基于TF-IDF算法构建了POI权重计算模型,结合分类标准,实现了城市功能区的精准识别。
从识别结果来看,共得到23类功能区,包括6类单一功能区、16类混合功能区、1类无数据区,通过与高德地图进行对比分析,该方法符合实际情况。与传统研究方法相比,本文在POI权重的计算上更加科学,利用TF-IDF模型对单元内的POI数量进行加权处理,相较于传统的权重赋值法,进一步考虑了POI在整体区域上的分布、空间网格单元内的密度,可以有效地提高功能区识别精度。克服传统方法POI权重主观赋值的不稳定性,定量分析数据,具有较好的分类效果。
从城市功能区变化来看,上海市2008—2018年土地类型均以无数据区、工业、商服、公共及相关功能区为主,但是其数量,空间格局都有明显的变化。无数据区和工业功能区数量下降,商服和公共功能区大幅度增加。商服功能区由市区向外蔓延,郊区中心呈现点状的聚集,商业中心增多,商业服务业氛围进一步提升。工业功能区逐渐远离市区,向外迁移。
综合来看,基于空间网格的城市功能区划分精度较高,结合TF-IDF方法的城市功能区类型识别更加准确,对于城市复杂空间结构分析有较高的参考价值,有利于了解区域主导因素的集聚特征,以便商业、公共设施等的选址和城市规划,为公共资源的配置、城市综合体的建设提供参考,更好地服务智慧城市的建设。下一步将结合街景影像、微博社交媒体数据全面分析城市的发展,从人的行为和自然环境的角度揭示城市活动类型,可进一步提升城市功能区的识别精度。
作者简介:马强(1997—),男,安徽蒙城人,地图学与地理信息系统专业硕士研究生,主要研究方向为地理大数据分析与应用
E -mail:mrmaq625@163.com
本期回顾
《地理信息世界》2021年4期速览
智慧国土空间规划与管理研究