当前位置: X-MOL 学术Energy Econ. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Using machine learning to select variables in data envelopment analysis: Simulations and application using electricity distribution data
Energy Economics ( IF 12.8 ) Pub Date : 2023-03-15 , DOI: 10.1016/j.eneco.2023.106621
Toni Duras, Farrukh Javed, Kristofer Månsson, Pär Sjölander, Magnus Söderberg

Agencies that regulate electricity providers often apply nonparametric data envelopment analysis (DEA) to assess the relative efficiency of each firm. The reliability and validity of DEA are contingent upon selecting relevant input variables. In the era of big (wide) data, the assumptions of traditional variable selection techniques are often violated due to challenges related to high-dimensional data and their standard empirical properties. Currently, regulators have access to a large number of potential input variables. Therefore, our aim is to introduce new machine learning methods for regulators of the energy market. We also propose a new two-step analytical approach where, in the first step, the machine learning-based adaptive least absolute shrinkage and selection operator (ALASSO) is used to select variables and, in the second step, selected variables are used in a DEA model. In contrast to previous research, we find, by using a more realistic data-generating process common for production functions (i.e., Cobb–Douglas and Translog), that the performance of different machine learning techniques differs substantially in different empirically relevant situations. Simulations also reveal that the ALASSO is superior to other machine learning and regression-based methods when the collinearity is low or moderate. However, in situations of multicollinearity, the LASSO approach exhibits the best performance. We also use real data from the Swedish electricity distribution market to illustrate the empirical relevance of selecting the most appropriate variable selection method.



中文翻译:

使用机器学习在数据包络分析中选择变量:使用配电数据的模拟和应用

监管电力供应商的机构通常应用非参数数据包络分析 (DEA) 来评估每家公司的相对效率。DEA 的可靠性和有效性取决于选择相关的输入变量。在大(宽)数据时代,由于与高维数据及其标准经验属性相关的挑战,传统变量选择技术的假设经常被违反。目前,监管机构可以访问大量潜在的输入变量。因此,我们的目标是为能源市场监管机构引入新的机器学习方法。我们还提出了一种新的两步分析方法,在第一步中,基于机器学习的自适应最小绝对收缩和选择算子(ALASSO)用于选择变量,在第二步中,选择的变量用于 DEA 模型。与之前的研究相比,我们发现,通过使用生产函数常见的更现实的数据生成过程(即 Cobb-Douglas 和 Translog),不同机器学习技术的性能在不同的经验相关情况下大不相同。模拟还表明,当共线性低或中等时,ALASSO 优于其他机器学习和基于回归的方法。然而,在多重共线性的情况下,LASSO 方法表现出最佳性能。我们还使用来自瑞典配电市场的真实数据来说明选择最合适的变量选择方法的经验相关性。通过使用生产函数常见的更现实的数据生成过程(即 Cobb-Douglas 和 Translog),不同的机器学习技术的性能在不同的经验相关情况下有很大差异。模拟还表明,当共线性低或中等时,ALASSO 优于其他机器学习和基于回归的方法。然而,在多重共线性的情况下,LASSO 方法表现出最佳性能。我们还使用来自瑞典配电市场的真实数据来说明选择最合适的变量选择方法的经验相关性。通过使用生产函数常见的更现实的数据生成过程(即 Cobb-Douglas 和 Translog),不同的机器学习技术的性能在不同的经验相关情况下有很大差异。模拟还表明,当共线性低或中等时,ALASSO 优于其他机器学习和基于回归的方法。然而,在多重共线性的情况下,LASSO 方法表现出最佳性能。我们还使用来自瑞典配电市场的真实数据来说明选择最合适的变量选择方法的经验相关性。不同机器学习技术的性能在不同的经验相关情况下有很大差异。模拟还表明,当共线性低或中等时,ALASSO 优于其他机器学习和基于回归的方法。然而,在多重共线性的情况下,LASSO 方法表现出最佳性能。我们还使用来自瑞典配电市场的真实数据来说明选择最合适的变量选择方法的经验相关性。不同机器学习技术的性能在不同的经验相关情况下有很大差异。模拟还表明,当共线性低或中等时,ALASSO 优于其他机器学习和基于回归的方法。然而,在多重共线性的情况下,LASSO 方法表现出最佳性能。我们还使用来自瑞典配电市场的真实数据来说明选择最合适的变量选择方法的经验相关性。

更新日期:2023-03-18
down
wechat
bug