当前位置: X-MOL 学术Omega › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Optimal operations planning of electric autonomous vehicles via asynchronous learning in ride-hailing systems
Omega ( IF 6.9 ) Pub Date : 2021-03-18 , DOI: 10.1016/j.omega.2021.102448
Guodong Yu , Aijun Liu , Jianghua Zhang , Huiping Sun

Ride-hailing systems with electric autonomous vehicles are recognized as a next-generation development to ease congestion, reduce costs and carbon emissions. In this paper, we consider the operation planning problem involving vehicle dispatching, relocation, and recharging decisions. We model the problem as a Markov Decision Process (MDP) to generate the optimal policy that maximizes the total profits. We propose a flexible policy to provide optimal actions according to the reward considering future requests and vehicle availability. We show that our model outperforms the predetermined rules on improving profits. To handle the curse-of-dimensionality caused by the large scale of state space and uncertainty, we develop an asynchronous learning method to solve the problem by approximating the value function. We first draw the samples of exogenous information and update the quality of approximations based on the quality of decisions, then approximate the exact cost-to-go value function by solving an approximation subproblem efficiently given the state at each period. Two variant algorithms are presented for cases with scarce and sufficient information. We also incorporate the state aggregation and post-decision analysis to further improve computational efficiency. We use a set of shared actual data from Didi platform to verify the proposed model in numerical experiments. To conclude, we extract managerial insights that suggest important guidelines for the ride-hailing operations planning problem.



中文翻译:

乘车系统中异步学习的电动无人驾驶汽车最佳运营计划

带有电动自动驾驶汽车的乘车系统被认为是缓解拥堵,降低成本和减少碳排放的下一代开发。在本文中,我们考虑了涉及车辆调度,搬迁和充电决策的运营计划问题。我们将问题建模为马尔可夫决策过程(MDP),以生成使总利润最大化的最优策略。考虑到未来的要求和车辆的可用性,我们提出了一种灵活的政策,根据奖励提供最佳行动。我们证明了我们的模型在提高利润方面胜过了预定的规则。为了处理由于状态空间规模大和不确定性导致的维数诅咒,我们开发了一种异步学习方法,通过逼近值函数来解决该问题。我们首先绘制外生信息样本,然后根据决策质量更新近似值的质量,然后通过在给定状态下有效求解近似子问题来近似精确的成本成本函数。针对缺少信息和足够信息的情况,提出了两种变体算法。我们还将状态汇总和决策后分析合并在一起,以进一步提高计算效率。我们使用来自Didi平台的一组共享的实际数据来在数值实验中验证所提出的模型。最后,我们提取了管理见识,这些见解为乘车操作计划问题提供了重要指导。然后通过在给定状态下的每个状态下有效地解决一个近似子问题,来近似精确的成本价值函数。针对缺少信息和足够信息的情况,提出了两种变体算法。我们还将状态汇总和决策后分析合并在一起,以进一步提高计算效率。我们使用来自Didi平台的一组共享的实际数据来在数值实验中验证所提出的模型。最后,我们提取了管理见识,这些见解为乘车操作计划问题提供了重要指导。然后通过在给定状态下的每个状态下有效地解决一个近似子问题,来近似精确的成本价值函数。针对缺少信息和足够信息的情况,提出了两种变体算法。我们还将状态汇总和决策后分析合并在一起,以进一步提高计算效率。我们使用来自Didi平台的一组共享的实际数据来在数值实验中验证所提出的模型。最后,我们提取了管理见识,这些见解为乘车操作计划问题提供了重要指导。我们使用来自Didi平台的一组共享的实际数据来在数值实验中验证所提出的模型。最后,我们提取了管理见识,这些见解为乘车操作计划问题提供了重要指导。我们使用来自Didi平台的一组共享的实际数据来在数值实验中验证所提出的模型。最后,我们提取了管理见识,这些见解为乘车操作计划问题提供了重要指导。

更新日期:2021-05-22
down
wechat
bug