当前位置: X-MOL 学术J. Grid Comput. › 论文详情
Effective Scheduler for Distributed DNN Training Based on MapReduce and GPU Cluster
Journal of Grid Computing ( IF 2.095 ) Pub Date : 2021-02-22 , DOI: 10.1007/s10723-021-09550-6
Jie Xu, Jingyu Wang, Qi Qi, Haifeng Sun, Jianxin Liao, Di Yang

Parallel training accelerates the Deep Neural Networks (DNN) training by parallel GPUs. While the in-memory data transmission becomes the cross-node network transmission due to distribution of GPUs on different nodes, which drags the training time. Most researches address it by reducing the data size on network links. However, the factor of network distance is ignored. In this paper, we construct a distributed DNN training architecture based on MapReduce. The customized scheduler is designed to make the computations nodes that finish the training closer to the nodes that storage data. At the same time, the parallel training models are synchronized by adjusting the data transmission time. The experimental results show that the shortened network distance benefits the reduced network traffic usage. The resulting data transmission time decreases the training time by at least 50% and guarantees the synchronization for the parallel training.



中文翻译:

基于MapReduce和GPU集群的分布式DNN培训的有效调度程序

并行训练通过并行GPU加速了深度神经网络(DNN)训练。内存中数据传输由于GPU在不同节点上的分布而成为跨节点网络传输,这拖累了训练时间。大多数研究通过减少网络链接上的数据大小来解决这一问题。但是,网络距离的因素被忽略了。在本文中,我们基于MapReduce构建了分布式DNN训练架构。定制的调度程序旨在使完成训练的计算节点更靠近存储数据的节点。同时,并行训练模型通过调整数据传输时间来同步。实验结果表明,缩短的网络距离有利于减少网络流量的使用。

更新日期:2021-02-22
全部期刊列表>>
2021新春特辑
SN Applied Sciences期刊征稿中
虚拟特刊
亚洲大洋洲地球科学
NPJ欢迎投稿
自然科研论文编辑
ERIS期刊投稿
欢迎阅读创刊号
自然职场,为您触达千万科研人才
spring&清华大学出版社
城市可持续发展前沿研究专辑
Springer 纳米技术权威期刊征稿
全球视野覆盖
施普林格·自然新
chemistry
物理学研究前沿热点精选期刊推荐
自然职位线上招聘会
欢迎报名注册2020量子在线大会
化学领域亟待解决的问题
材料学研究精选新
GIANT
ACS ES&T Engineering
ACS ES&T Water
屿渡论文,编辑服务
阿拉丁试剂right
上海中医药大学
哈工大
西湖大学
化学所
北京大学
山东大学
隐藏1h前已浏览文章
课题组网站
新版X-MOL期刊搜索和高级搜索功能介绍
ACS材料视界
南方科技大学
张凤娇
中国石油大学
天合科研
x-mol收录
试剂库存
down
wechat
bug