当前位置: X-MOL 学术Int. J. Mach. Learn. & Cyber. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Accelerating ELM training over data streams
International Journal of Machine Learning and Cybernetics ( IF 5.6 ) Pub Date : 2020-08-24 , DOI: 10.1007/s13042-020-01158-8
Hangxu Ji , Gang Wu , Guoren Wang

In the field of machine learning, offline training and online training occupy the same important position because they coexist in many real applications. The extreme learning machine (ELM) has the characteristics of fast learning speed and high accuracy for offline training, and online sequential ELM (OS-ELM) is a variant of ELM that supports online training. With the explosive growth of data volume, running these algorithms on distributed computing platforms is an unstoppable trend, but there is currently no efficient distributed framework to support both ELM and OS-ELM. Apache Flink is an open-source stream-based distributed platform for both offline processing and online data processing with good scalability, high throughput, and fault-tolerant ability, so it can be used to accelerate both ELM and OS-ELM. In this paper, we first research the characteristics of ELM, OS-ELM and distributed computing platforms, then propose an efficient stream-based distributed framework for both ELM and OS-ELM, named ELM-SDF, which is implemented on Flink. We then evaluate the algorithms in this framework with synthetic data on distributed cluster. In summary, the advantages of the proposed framework are highlighted as follows. (1) The training speed of FLELM is always faster than ELM on Hadoop and Spark, and its scalability behaves better as well. (2) Response time and throughput of FLOS-ELM achieve better performance than OS-ELM on Hadoop and Spark when the incremental training samples arrive. (3) The response time and throughput of FLOS-ELM behave better in native-stream processing mode when the incremental data samples are continuously arriving.



中文翻译:

通过数据流加速ELM培训

在机器学习领域中,离线培训和在线培训占据着相同的重要位置,因为它们共存于许多实际应用中。极限学习机(ELM)具有快速学习速度和高精度的脱机训练特性,而在线顺序ELM(OS-ELM)是支持在线训练的ELM的变体。随着数据量的爆炸性增长,在分布式计算平台上运行这些算法已成为不可阻挡的趋势,但是目前没有有效的分布式框架同时支持ELM和OS-ELM。Apache Flink是一个用于离线处理和在线数据处理的基于开源流的分布式平台,具有良好的可伸缩性,高吞吐量和容错能力,因此可用于加速ELM和OS-ELM。在本文中,我们首先研究ELM,OS-ELM和分布式计算平台的特征,然后为ELM和OS-ELM提出一个有效的基于流的分布式框架,名为ELM-SDF,该框架在Flink上实现。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后,OS-ELM和分布式计算平台针对ELM和OS-ELM提出了一个有效的基于流的分布式框架,称为ELM-SDF,该框架在Flink上实现。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后,OS-ELM和分布式计算平台针对ELM和OS-ELM提出了一个有效的基于流的分布式框架,称为ELM-SDF,该框架在Flink上实现。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后为ELM和OS-ELM提出了一个有效的基于流的分布式框架,名为ELM-SDF,该框架在Flink上实现。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后为ELM和OS-ELM提出了一个有效的基于流的分布式框架,名为ELM-SDF,该框架在Flink上实现。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。然后,我们使用分布式集群上的综合数据评估此框架中的算法。总之,提出的框架的优点如下。(1)在Hadoop和Spark上,FLELM的训练速度始终快于ELM,并且其可伸缩性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。并且其可扩展性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。并且其可扩展性也表现得更好。(2)当增量训练样本到达时,FLOS-ELM的响应时间和吞吐量比Hadoop和Spark上的OS-ELM获得更好的性能。(3)当增量数据样本不断到达时,FLOS-ELM的响应时间和吞吐量在本机流处理模式下表现更好。

更新日期:2020-08-24
down
wechat
bug