作 者 信 息
徐 森,梁娟珠
(福州大学 数字中国研究院(福建),福建 福州 350116)
【摘要】在文明交通的时代背景下,公众对其文明出行、减少交通违法行为的关注度越来越高,研究交通违法行为规律既能减少城市交通违法行为的发生,也能从源头减少交通事故的发生。对福州市2018年交通违法数据按照福建省交通违法扣分相关标准进行分类,利用分类后的数据进行时空关联规则挖掘,得到数据中隐含的规律信息。通过FP-growth算法结合交通违法地址、时间、天气和违法种类进行时空多维数据关联规则挖掘。结果表明:福州市交通违法行为主要聚集在城区和福清市,且上午比下午和晚上更容易发生交通违法行为,受天气影响较小,大多数交通违法行为都是在多云天气下发生;关联规则挖掘在满足最小支持度和置信度下,共挖掘出福州市19处交通违法地址和11种交通违法行为。
【关键词】交通违法数据;关联规则;FP-growth算法;可视化展示
【中图分类号】TP29 【文献标识码】A 【文章编号】1672-1586(2020)05-0046-06
引文格式:徐 森,梁娟珠. 基于福州市交通违法数据的时空关联规则挖掘研究[J].地理信息世界,2020,27(5):46-51.
正文
0 引 言
随着我国经济社会快速发展,汽车慢慢走入千家万户,给人们的出行提供了极大方便。人们在享受道路交通提供便利的同时,也要面临着频繁发生的交通混乱和交通事故带来的影响。研究表明,这些交通事故往往是由驾驶员占用对方车道,操作不当和超速等各种交通违法行为引起。因此,对交通违法行为规律进行研究,变得越来越重要。
传统基于交通违法数据的研究主要是进行简单的数理统计和交通事故发生时通过交通违法行为来判定事故责任人,对交通违法行为进行挖掘分析的很少。本文以福州市2018年交通违法数据,结合天气影响因素对福州市交通违法数据进行时空多维关联规则挖掘,挖掘交通违法数据中隐含的信息,并对挖掘的结果进行可视化分析。通过对福州市交通违法行为的关联规则挖掘可以获取城市交通违法行为的规律,可为福州市交通环境治理和交通规划提供科学的依据。
1 数据处理和方法
1.1 研究资料
福州市位于福建省东部沿海地区118°08′~120°31'E,25°15'~26°29'N,全市共管辖鼓楼、台江、仓山、晋安、马尾和长乐6个区,闽侯、连江、罗源、闽清、永泰、平潭6个县,以及县级市福清,共6区7县,海拔处于600~1 000 m。结合数据有效性,时间序列选择2018年1月1日至2018年8月31日交通违法数据(数据来源于福建省公安厅)。数据中包括行人、非机动车和机动车违法记录,数据格式及属性字段见表1,从第1列到第5列分别表示:交通违法地址(WFDZ)、违法内容(WFNR)、处理时间(CLSJ)、违法时间(WFSJ)和违法编号(WFBH),同时实验添加2018年天气作为影响因素。
表1 交通违法数据格式示例
Tab.1 Examples of traffiffiffic violation data formats
1.2 数据预处理
交通违法数据来源于城市电子监控采集数据和交警日常巡逻登记数据,导致数据中包含了空值。通过Oracle数据库进行数据预处理,主要包括以下4个方面:
1)非机动车和行人违法记录剔除
近年来,交通管理部门对交通违法行为治理加大了执法力度,在交通违法数据中包含非机动车和行人交通违法记录,对其进行剔除,减少数据冗余,以免影响实验的结果。
2)空值数据删除
在交通违法数据中,由于工作中的疏忽,会出现空值数据,将其删除,提高数据挖掘效率。本文选取2 689 609条机动车交通违法数据。
3)地址异常
随着政务数据之间的互联互通,有部分闽A牌照在外地交通违法记录可以在福建省公安厅查询,为了得到有效的交通违法数据,将交通违法地址不属于福州市辖区的进行删除,因此本文将交通违法地址进行地理编码。通过对百度、高德、腾讯3家地图厂商提供的应用程序接口(Application Programming Interface,API)进行比较,认为高德地理编码API的整体质量比较高,本文采用高德地理编码对福州市交通违法地址进行地理编码。根据解析出的经纬度结果有246 394条记录不属于福州市辖区,最终得到2 443 215条福州市交通违法记录进行空间分析,并进行挖掘分析。
4)交通违法数据提取
由于交通违法数据量大,分析处理会出现内存溢出现象。此外,在时空关联规则挖掘中如果出现某一项交通违法数据过多,会造成其他交通违法数据被掩盖,从而导致数据挖掘结果单一和不准确。本文将交通违法数据按照福建省交通管理部门在2014年出台的“福建省道路交通安全违法行为处理对照表”,编辑SQL语句将2018年交通违法数据按照不扣分交通违法行为到吊销驾照交通违法行为分成共七类,导出多个EXCEL文件。通过上述步骤对数据的预处理最终得到12 440处交通违法地址和190种交通违法行为,其中这七类交通违法数据量分别为:不扣分交通违法行为(637 326),扣1分交通违法行为(9 311),扣2分交通违法行为(167 033),扣3分交通违法行为(1 627 444),扣6分交通违法行为(332),扣12分交通违法行为(1 281),吊销驾驶证交通违法行为(488)。其中扣3分交通违法行为记录中“机动车违反禁令标志指示的”共有1 008 966条数据,为了确保实验准确性,该交通违法行为单独进行时空关联规则挖掘;扣6分交通违法行为数据量较少,该类交通违法行为由闯红灯和超载等行为造成。近年来,驾驶员素质提高和国家对超载治理一直处于高压态势下,这类交通违法行为较少。
1.3 数据编码
将预处理的交通违法地址、违法时间、违法内容以及2018年天气内容4种属性进行分类编码,产生新的数据库。现有的交通违法数据可以分为两大类:一类属于量化型数据,由连续值表示,如交通违法时间;另一类属于枚举型数据,如交通违法地址、天气等数据。利用不同数据的特点,对数据进行编码。对于时间这种量化型属性,通过离散化来处理。如将交通违法发生的时间按照T1=0:00—1:59,…,T12=22:00—23:59,每2h作为一个区间进行编码,共12个区间。还需进行属性预处理的字段有交通违法地址,天气和交通违法行为。交通违法地址分为A1=永泰县嵩口镇环岛至菜市场路段,……,A12440=平潭县城万宝路潭澳线路口。天气分为W1=晴,W2=阴,W3=多云,W4=雷阵雨,W5=阵雨,W6=小雨,W7=中雨,W8=暴雨,W9=大暴雨共9种属性。交通违法内容分为I 1=重型、中型载货汽车及其挂车的车身或者车厢后部放大的牌号不清晰……I190=醉酒后驾驶机动车的。经过编码后的交通违法数据在新的数据库中存储形式见表2。
表2 数据编码在数据库存储形式
Tab.2 Data encoding in the form of database storage
2 研究方法
2.1 时空关联规则
时空关联规则与经典关联规则相似,形如“A→B”,其中A和B是一系列谓词。而时空关联中,这些谓词具有时空意义。时空关联规则能够分析出各属性和各事务中的关联关系,其本质就是从事务数据库中提取用户关心的联系度高的关联信息。其最重要的就是在事务数据库中找出同时满足支持度(Support)和置信度(Confidence)的所有强关联规则,基本模型如图1所示。
图1 关联挖掘的基本模型
Fig.1 Basic model of association mining
因此,可以把时空关联规则挖掘简单的分为两个过程:
1)在数据集中找出所有满足最小支持度的频繁项集。
2)通过频繁项集挖掘出同时满足最小支持度和置信度的规则即为强关联规则。
其中支持度和置信度阈值的设定是关联规则挖掘结果有效性的关键。支持度规则是确定特定项集在总项集的比例,计算公式如式(1),支持度是一种重要的度量工具,可用于删除那些无意义的规则,提高结果准确性。
式中,A与B为不相交的子集,N为事务的总数量,a为出现事务的次数。
置信度用于确定B在包括A的事务中出现的频繁程度,计算公式如式(2)。置信度可用于推理规则的可靠性,置信度阈值越高,推理越可靠。
式中,各参数含义同公式(1)。
2.2 FP-growth算法
关联规则挖掘技术最出名的是1993年Agrawal提出的Apriori算法,该算法需要频繁扫描数据集,对于超大型数据集处理会大大增加计算机I/O负载,甚至会让计算机直接崩溃。因此不断有人对挖掘算法进行改进,2000年Han等人提出了另外一个有价值的挖掘算法FP-growth,相比Apriori算法,该算法采用完全不同的方法来发现频繁项集,在读取数据库中的每个事务后,将每个事务映射到FP-tree中的一条路径来构造。每个事物可能会有相同的项,因此可能会在FP-tree上部分重叠。路径重叠的越多,FP-tree构造的效果越好。FP-growth算法不需要频繁地扫描数据库,只需要扫描2次数据库。该算法主要分为2个过程,首先将数据集压缩成FP-tree,然后在FP-tree上挖掘频繁模式使挖掘效率得到了极大提升。FP-growth算法流程如图2所示。
图2 FP-growth算法流程图
Fig.2 FP-growth algorithm flflowchart
3 实验结果与分析
3.1 时间分析
时间在生活中属于一个很重要的影响因素,一般研究如果没有考虑时间因素,就认为此事务是永久成立。实际状况中,交通违法时空关联规则挖掘结果既包含空间属性也包含时间属性,挖掘出来的结果才具有更好的指导决策作用。对预处理过的交通违法数据以2 h为一区间进行数理统计,从图3可得出以下结论:
1)福州市交通违法数量上午比下午和晚上都要多;在前一天晚上22:00点至第二天早上5:59点之间数量较少,之后交通违法数量不断增加,在10:00—11:59交通违法数量达到峰值,随后的时间里交通违法数量有升有降,17:59点以后交通违法数量逐渐减少。
2)不扣分、扣2分、扣3分和机动车违反禁令标志指示交通违法行为发生数量在6:00—21:59的8个时段区间内比扣1分、扣6分、扣12分和吊销驾驶证交通违法行为发生数量多;其中扣1分、扣6分、扣12分和吊销驾驶证交通违法行为在各个时段区间内发生的数量都不多。
3)机动车违反禁令标志指示交通违法行为在8:00—21:59的7个时段区间内的发生数量比其他各类交通违法行为发生数量都要高。
图3 时间分布规律图
Fig.3 Time distribution
3.2 时空关联规则结果分析
对福州市交通违法数据进行时空关联规则挖掘研究,每类时空关联规则都需要预设最小支持度和置信度,才能得到一定意义的时空关联规则表达式。表3是经过多次实验得到的最小支持度和置信度,时空关联规则挖掘结果见表4,其挖掘结果对应的支持度和置信度见表5。
表3 各类交通违法预设阈值
Tab.3 Various traffiffiffic violation thresholds
表4 关联分析结果表
Tab.4 Association analysis results
表5 关联规则各结果支持度和置信度
Tab.5 Support and confifidence of each result of association rules
图4 交通违法地址与关联结果展示图
Fig.4 The results of the association rules of traffiffiffic illegal addresses and categories
其中,表3挖掘出的地址为19处,其各地址编码在新的数据库中对应地址为:A1489=浦上大道冠浦路西往东,A7888=福飞南路,A7198=清昌大道,A2596=屏北人行天桥,A 7133=金山大道金洲口监控范围,A2558=闽侯旗山大桥北侧监控,A9241=S203省道与江莲路交叉路口东向,A8721=三环魁岐1#隧道往马尾方向出口处,A1751=爱琴海闽江大道路段监控范围,A7115=鳌江路,A 4703=省妇幼保健院口监控范围,A7676=福峡路永南路口,A9253=长乐市区西洋路上湖环岛,A7675=福峡路,A2574=高山镇区街道,A6307=福平街,A7199=清昌大道与康达路交叉口,A9075=龙景路,A7547=清荣大道。
交通违法行为共有11种,在新的数据库中对应的违法内容为:I64=机动车违反规定使用专用车道,I94=同方向行驶后车与前车距离较近时,不正确使用远光灯,I105=不按规定使用灯光,I107=在有指示灯路口时,不按规定方向驶入导向车道,I117=排队等候时,随意超车和占用对面车道,I160=机动车违反禁止标线指示的,I124=机动车违反禁令标志指示的,I161=驾驶证被依法扣留期间驾驶机动车,I167=公路客运车辆载人超过核定载客人数未达20%,I173=驾驶与驾驶证载明的准驾车型不相符合的非汽车类机动车,I186=以欺骗和贿赂不正当手段获取驾驶证。
根据表3结果在ArcGIS10.2软件中对福州市交通违法关联结果中的时间、天气和交通违法行为按照扣分分类进行可视化展示,如图4所示。从图4a可知福州市交通违法行为在早晚高峰期主要发生城区,因为城区聚集了大量商场、写字楼、学校和居民区,车流人流大;图4b展示了福州市交通违法行为受天气影响较小,大多都在多云天气下发生。从表4和图4的结果对福州市交通违法行为进行分析,可得出如下结论:
1)从不扣分、扣2分交通违法行为时空关联规则结果可知:浦上大道冠浦路西往东道路(16:00—19:59)和福飞南路(16:00—17:59)发生机动车违反规定使用专用车道;金山大道金洲口监控范围(8:00—9:59)在交通拥堵时有机动车乱穿插和超速行为;闽侯旗山大桥北侧监控(14:00—15:59),S203省道与江莲路交叉路口东向(16:00—17:59)发生机动车不按规定驶入导向车道;其中浦上大道、金山大道金洲口和闽侯旗山大桥都在闽江旁边,道路两端各连接两座大桥,承载车流量比较大;福飞南路和S203省道与江莲路交叉路口东向周围连接道路多,红绿灯时间久,驾驶员在经过这两条道路时,为了快速通行会随意穿插和占用车道。交通管理部门在早晚高峰期合理安排交警到现场进行管理和指挥,引导驾驶员文明行车避免车辆间发生摩擦影响其他车辆通行,防止出现交通堵塞。
2)从扣1分交通违法行为时空关联规则结果可知:清昌大道(18:00—21:59)和屏北人行天桥(20:00—21:59)发生不按规定使用灯光,夜间违法使用灯光使得驾驶员和行人没有反应的时间,特别小雨天气驾驶员操作不当会引起车祸发生。交通管理部门应在清昌大道和屏北人行天桥合理地设置相应警示牌,同时夜间对这两条道路多加巡查,发现问题并及时处理,避免交通事故发生。
3)扣3分交通违法行为整体较多,在三环魁岐1#隧道往马尾方向出口(10:00—17:59)发生机动车违反禁止标线指示的交通违法行为,此处机场高速、三环魁浦大桥和104国道互通,出口较多,需要驾驶员频繁地变道和减速;爱琴海闽江大道路段监控范围(10:00—13:59)、鳌江路(18:00—19:59)和省妇幼保健院监控范围(8:00—9:59)发生机动车违反禁止标线指示的交通违法行为,这3处路段周边都有景区和大型商场,交通管理部门在这些路段设置的道路交通标识线较多,而且较为复杂,容易对驾驶员变道和拐弯造成影响。政府部门和交通管理部门对道路进行规划设计时,简化道路交通标志和标线,引导驾驶员有序、安全驾驶。
4)从扣6分、扣12分和吊销驾驶证交通违法行为时空关联规则结果可知:这三类交通违法行为在现实中属于较严重交通违法行为,容易引发交通事故带来人员伤亡。根据表4和图4c可知这三类交通违法地址在三环快速路以外仓山区的福峡路(10:00—11:59,16:00—17:59)和长乐区的西洋路上湖环岛(8:00—9:59)出现驾驶员在驾驶证被扣期间驾驶机动车行为;福清市的高山镇区街道(14:00—15:59)有客车超载行为,同时福平街(10:00—11:59)和清昌大道与康达路交叉口(20:00—21:59)出现驾驶与驾驶证载明的准驾车型不相符合的非汽车类机动车;长乐区龙景路(12:00—13:59)和福清市清荣大道(6:00—7:59)出现以欺骗和贿赂不正当手段获取驾驶证行为。交警可以根据时空关联规则结果提前在路段设卡查车进行交通违法管理,保障司机和乘客生命安全,为全市打造良好的交通环境。
4 结束语
本文基于福州市2018年交通违法数据,同时结合天气和时间影响因素进行时空关联规则挖掘研究,运用GIS对挖掘结果进行可视化分析,通过分析得出的主要结论有:①福州市交通违法主要聚集在城区和福清市,而且上午比下午和晚上更容易发生交通违法。②早晚高峰期交通违法行为主要在城区,如浦上大道冠浦路西往东、福飞南路、金山大道金洲口监控范围等路段。而且福州市交通违法受天气影响较小,大多交通违法行为在多云天气下发生。③清昌大道是横穿福清市中心的一条主干道,在20:00—21:59会发生驾驶员不按规定使用灯光和驾驶与驾驶证载明的准驾车型不相符合的非汽车类机动车多种交通违法行为,在夜间容易引起交通事故。
本文对交通违法行为进行时空关联规则分析,但仍有继续深入研究和改进之处,一方面是数据本身采样的全面性影响挖掘效果;另一方面考虑因素不够多,如驾龄、城市道路路况等影响因素还需要更进一步的研究。
作者简介:徐森(1995-),男,安徽望江人,测绘工程专业硕士研究生,主要研究方向为地理信息工程。
E-mail:18395599708@163.com
通讯作者:梁娟珠(1978-),女,福建福清人,副研究员,博士,主要从事地理信息工程与政务信息共享研究等工作。
E-mail:liangjuanzhu@163.com
本期回顾
文化遗产数字化与虚拟修复
理论研究
邮箱变更声明
网站开通公告
诚聘特约审稿专家
专题组稿