当前位置: X-MOL 学术J. Big Data › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Examining the impact of cross-domain learning on crime prediction
Journal of Big Data ( IF 8.1 ) Pub Date : 2021-07-03 , DOI: 10.1186/s40537-021-00489-9
Fateha Khanam Bappee 1 , Amilcar Soares 2 , Lucas May Petry 3 , Stan Matwin 1, 4
Affiliation  

Nowadays, urban data such as demographics, infrastructure, and criminal records are becoming more accessible to researchers. This has led to improvements in quantitative crime research for predicting future crime occurrence by identifying factors and knowledge from instances that contribute to criminal activities. While crime distribution in the geographic space is asymmetric, there are often analog, implicit criminogenic factors hidden in the data. And, since the data are not as available or comprehensive, especially for smaller cities, it is challenging to build a uniform framework for all geographic regions. This paper addresses the crime prediction task from a cross-domain perspective to tackle the data insufficiency problem in a small city. We create a uniform outline for Halifax, Nova Scotia, one of Canada’s geographic regions, by adapting and learning knowledge from two different domains, Toronto and Vancouver, which belong to different but related distributions with Halifax. For transferring knowledge among source and target domains, we propose applying instance-based transfer learning settings. Each setting is directed to learning knowledge based on a seasonal perspective with cross-domain data fusion. We choose ensemble learning methods for model building as it has generalization capabilities over new data. We evaluate the classification performance for both single and multi-domain representations and compare the results with baseline models. Our findings exhibit the satisfactory performance of our proposed data-driven approach by integrating multiple sources of data.



中文翻译:

检查跨域学习对犯罪预测的影响

如今,研究人员越来越容易获得人口统计、基础设施和犯罪记录等城市数据。这导致了定量犯罪研究的改进,通过从有助于犯罪活动的实例中识别因素和知识来预测未来的犯罪发生。虽然地理空间中的犯罪分布是不对称的,但数据中往往隐藏着类似的、隐含的犯罪因素。而且,由于数据不可用或不全面,特别是对于较小的城市,因此为所有地理区域建立统一的框架具有挑战性。本文从跨域的角度解决犯罪预测任务,以解决小城市的数据不足问题。我们为加拿大地理区域之一的新斯科舍省哈利法克斯创建了统一的轮廓,通过适应和学习来自两个不同领域的知识,多伦多和温哥华,它们与哈利法克斯属于不同但相关的分布。为了在源域和目标域之间转移知识,我们建议应用基于实例的转移学习设置。每个设置都针对基于跨域数据融合的季节性视角来学习知识。我们选择集成学习方法进行模型构建,因为它具有对新数据的泛化能力。我们评估单域和多域表示的分类性能,并将结果与​​基线模型进行比较。我们的研究结果通过集成多个数据源展示了我们提出的数据驱动方法的令人满意的性能。与哈利法克斯属于不同但相关的发行版。为了在源域和目标域之间转移知识,我们建议应用基于实例的转移学习设置。每个设置都针对基于跨域数据融合的季节性视角来学习知识。我们选择集成学习方法进行模型构建,因为它具有对新数据的泛化能力。我们评估单域和多域表示的分类性能,并将结果与​​基线模型进行比较。我们的研究结果通过集成多个数据源展示了我们提出的数据驱动方法的令人满意的性能。与哈利法克斯属于不同但相关的发行版。为了在源域和目标域之间转移知识,我们建议应用基于实例的转移学习设置。每个设置都针对基于跨域数据融合的季节性视角来学习知识。我们选择集成学习方法进行模型构建,因为它具有对新数据的泛化能力。我们评估单域和多域表示的分类性能,并将结果与​​基线模型进行比较。我们的研究结果通过集成多个数据源展示了我们提出的数据驱动方法的令人满意的性能。每个设置都针对基于跨域数据融合的季节性视角来学习知识。我们选择集成学习方法进行模型构建,因为它具有对新数据的泛化能力。我们评估单域和多域表示的分类性能,并将结果与​​基线模型进行比较。我们的研究结果通过集成多个数据源展示了我们提出的数据驱动方法的令人满意的性能。每个设置都针对基于跨域数据融合的季节性视角来学习知识。我们选择集成学习方法进行模型构建,因为它具有对新数据的泛化能力。我们评估单域和多域表示的分类性能,并将结果与​​基线模型进行比较。我们的研究结果通过集成多个数据源展示了我们提出的数据驱动方法的令人满意的性能。

更新日期:2021-07-04
down
wechat
bug