当前位置: X-MOL 学术arXiv.cs.PF › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning
arXiv - CS - Performance Pub Date : 2020-11-19 , DOI: arxiv-2011.09655
Di Chai and Leye Wang and Kai Chen and Qiang Yang

As an innovative solution for privacy-preserving machine learning (ML), federated learning (FL) is attracting much attention from research and industry areas. While new technologies proposed in the past few years do evolve the FL area, unfortunately, the evaluation results presented in these works fall short in integrity and are hardly comparable because of the inconsistent evaluation metrics and the lack of a common platform. In this paper, we propose a comprehensive evaluation framework for FL systems. Specifically, we first introduce the ACTPR model, which defines five metrics that cannot be excluded in FL evaluation, including Accuracy, Communication, Time efficiency, Privacy, and Robustness. Then we design and implement a benchmarking system called FedEval, which enables the systematic evaluation and comparison of existing works under consistent experimental conditions. We then provide an in-depth benchmarking study between the two most widely-used FL mechanisms, FedSGD and FedAvg. The benchmarking results show that FedSGD and FedAvg both have advantages and disadvantages under the ACTPR model. For example, FedSGD is barely influenced by the none independent and identically distributed (non-IID) data problem, but FedAvg suffers from a decline in accuracy of up to 9% in our experiments. On the other hand, FedAvg is more efficient than FedSGD regarding time consumption and communication. Lastly, we excavate a set of take-away conclusions, which are very helpful for researchers in the FL area.

中文翻译:

FedEval:具有联邦学习综合评估模型的基准系统

作为隐私保护机器学习(ML)的创新解决方案,联邦学习(FL)正在引起研究和行业领域的广泛关注。虽然过去几年提出的新技术确实发展了 FL 领域,但不幸的是,由于评估指标不一致和缺乏通用平台,这些作品中呈现的评估结果缺乏完整性,难以比较。在本文中,我们为 FL 系统提出了一个综合评估框架。具体来说,我们首先介绍ACTPR模型,该模型定义了FL评估中不能排除的五个指标,包括准确性、通信、时间效率、隐私和鲁棒性。然后我们设计并实现了一个名为 FedEval 的基准测试系统,这使得在一致的实验条件下对现有作品进行系统评估和比较成为可能。然后,我们提供了两个最广泛使用的 FL 机制 FedSGD 和 FedAvg 之间的深入基准研究。基准测试结果表明,FedSGD 和 FedAvg 在 ACTPR 模型下各有优缺点。例如,FedSGD 几乎不受非独立同分布(非 IID)数据问题的影响,但 FedAvg 在我们的实验中遭受了高达 9% 的准确度下降。另一方面,在时间消耗和通信方面,FedAvg 比 FedSGD 更有效。最后,我们挖掘出一组外卖结论,对FL领域的研究人员非常有帮助。然后,我们提供了两个最广泛使用的 FL 机制 FedSGD 和 FedAvg 之间的深入基准研究。基准测试结果表明,FedSGD 和 FedAvg 在 ACTPR 模型下各有优缺点。例如,FedSGD 几乎不受非独立同分布(非 IID)数据问题的影响,但 FedAvg 在我们的实验中遭受了高达 9% 的准确度下降。另一方面,在时间消耗和通信方面,FedAvg 比 FedSGD 更有效。最后,我们挖掘出一组外卖结论,对FL领域的研究人员非常有帮助。然后,我们提供了两个最广泛使用的 FL 机制 FedSGD 和 FedAvg 之间的深入基准研究。基准测试结果表明,FedSGD 和 FedAvg 在 ACTPR 模型下各有优缺点。例如,FedSGD 几乎不受非独立同分布(非 IID)数据问题的影响,但 FedAvg 在我们的实验中遭受了高达 9% 的准确度下降。另一方面,在时间消耗和通信方面,FedAvg 比 FedSGD 更有效。最后,我们挖掘出一组外卖结论,对FL领域的研究人员非常有帮助。FedSGD 几乎不受非独立同分布(非 IID)数据问题的影响,但 FedAvg 在我们的实验中遭受了高达 9% 的准确度下降。另一方面,在时间消耗和通信方面,FedAvg 比 FedSGD 更有效。最后,我们挖掘出一组外卖结论,对FL领域的研究人员非常有帮助。FedSGD 几乎不受非独立同分布(非 IID)数据问题的影响,但 FedAvg 在我们的实验中遭受了高达 9% 的准确度下降。另一方面,在时间消耗和通信方面,FedAvg 比 FedSGD 更有效。最后,我们挖掘出一组外卖结论,对FL领域的研究人员非常有帮助。
更新日期:2020-11-20
down
wechat
bug