当前位置: X-MOL 学术J. Adv. Transp. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Detecting Invalid Associations between Fare Machines and Metro Stations Using Smart Card Data
Journal of Advanced Transportation ( IF 2.0 ) Pub Date : 2021-06-11 , DOI: 10.1155/2021/5283283
Pengfei Zhang 1 , Zhenliang Ma 2 , Xiaoxiong Weng 1
Affiliation  

Data quality is essential for its authentic usage in analysis and applications. The large volume of automated collection data inevidently suffers from data quality issues including data missing and invalidity. This paper deals with an invalid data problem in the automated fare collection (AFC) database caused by the erroneous association between the fare machines and metro stations, e.g., a fare machine located at Station A is wrongly associated with Station B in the AFC database. It could lead to inappropriate fare charges in a distance-based fare system and cause analysis bias for planning/operation practice. We propose a tensor decomposition and isolation forest-based approach to detect and correct the invalid associated fare machines in the system. The tensor decomposition extracts features of passenger flows and travel times passing through fare machines. The isolation forest coupled with a neural network (NN) takes these features as inputs to detect the wrongly associated fare machines and infer the correct association stations. Case studies using data from a metro system show that the proposed detection approach achieves over 90% accuracy in detecting the invalid associations for up to 35% invalid associations. The inferred association has a 90% accuracy even when the invalid association ratio reaches 40%. The proposed data-driven invalid data detection method is useful for large-scale data management in terms of data quality check and fix.

中文翻译:

使用智能卡数据检测售票机和地铁站之间的无效关联

数据质量对其在分析和应用中的真实使用至关重要。大量的自动收集数据不可避免地存在数据质量问题,包括数据丢失和无效。本文讨论了自动售票机和地铁站之间错误关联导致的自动售票机(AFC)数据库中的无效数据问题,例如,位于A站的售票机在AFC数据库中与B站错误关联。这可能会导致基于距离的票价系统中的票价收费不当,并导致规划/运营实践的分析偏差。我们提出了一种基于张量分解和隔离森林的方法来检测和纠正系统中无效的关联售票机。张量分解提取通过售票机的客流和旅行时间的特征。隔离森林与神经网络 (NN) 相结合,将这些特征作为输入来检测错误关联的售票机并推断出正确的关联站。使用地铁系统数据的案例研究表明,对于高达 35% 的无效关联,所提出的检测方法在检测无效关联方面的准确度超过 90%。即使无效关联率达到 40%,推断的关联也有 90% 的准确率。所提出的数据驱动的无效数据检测方法在数据质量检查和修复方面对于大规模数据管理很有用。隔离森林与神经网络 (NN) 相结合,将这些特征作为输入来检测错误关联的售票机并推断出正确的关联站。使用地铁系统数据的案例研究表明,对于高达 35% 的无效关联,所提出的检测方法在检测无效关联方面的准确度超过 90%。即使无效关联率达到 40%,推断的关联也有 90% 的准确率。所提出的数据驱动的无效数据检测方法在数据质量检查和修复方面对于大规模数据管理很有用。隔离森林与神经网络 (NN) 相结合,将这些特征作为输入来检测错误关联的售票机并推断出正确的关联站。使用地铁系统数据的案例研究表明,对于高达 35% 的无效关联,所提出的检测方法在检测无效关联方面的准确度超过 90%。即使无效关联率达到 40%,推断出的关联也有 90% 的准确率。所提出的数据驱动的无效数据检测方法在数据质量检查和修复方面对于大规模数据管理很有用。即使无效关联率达到 40%,推断的关联也有 90% 的准确率。所提出的数据驱动的无效数据检测方法在数据质量检查和修复方面对于大规模数据管理很有用。即使无效关联率达到 40%,推断的关联也有 90% 的准确率。所提出的数据驱动的无效数据检测方法在数据质量检查和修复方面对于大规模数据管理很有用。
更新日期:2021-06-11
down
wechat
bug