当前位置: X-MOL 学术J. Big Data › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A survey on data‐efficient algorithms in big data era
Journal of Big Data ( IF 8.1 ) Pub Date : 2021-01-26 , DOI: 10.1186/s40537-021-00419-9
Amina Adadi

The leading approaches in Machine Learning are notoriously data-hungry. Unfortunately, many application domains do not have access to big data because acquiring data involves a process that is expensive or time-consuming. This has triggered a serious debate in both the industrial and academic communities calling for more data-efficient models that harness the power of artificial learners while achieving good results with less training data and in particular less human supervision. In light of this debate, this work investigates the issue of algorithms’ data hungriness. First, it surveys the issue from different perspectives. Then, it presents a comprehensive review of existing data-efficient methods and systematizes them into four categories. Specifically, the survey covers solution strategies that handle data-efficiency by (i) using non-supervised algorithms that are, by nature, more data-efficient, by (ii) creating artificially more data, by (iii) transferring knowledge from rich-data domains into poor-data domains, or by (iv) altering data-hungry algorithms to reduce their dependency upon the amount of samples, in a way they can perform well in small samples regime. Each strategy is extensively reviewed and discussed. In addition, the emphasis is put on how the four strategies interplay with each other in order to motivate exploration of more robust and data-efficient algorithms. Finally, the survey delineates the limitations, discusses research challenges, and suggests future opportunities to advance the research on data-efficiency in machine learning.



中文翻译:

大数据时代的数据高效算法研究

众所周知,机器学习中的领先方法需要大量数据。不幸的是,许多应用程序域无法访问大数据,因为获取数据涉及昂贵或费时的过程。这在工业界和学术界引发了一场激烈的辩论,呼吁建立更多的数据有效模型,以利用人工学习者的力量,同时以更少的培训数据,尤其是更少的人为监督来取得良好的结果。鉴于这种争论,这项工作研究了算法数据饥饿的问题。首先,它从不同的角度对问题进行了调查。然后,它对现有的数据有效方法进行了全面回顾,并将其系统化为四个类别。特别,该调查涵盖以下解决方案策略:(i)使用本质上具有更高数据效率的非监督算法,通过(ii)人为创建更多数据,(iii)从丰富数据域转移知识来处理数据效率进入不良数据领域,或(iv)更改数据匮乏的算法以减少它们对样本数量的依赖,从而使它们在小样本情况下表现良好。每种策略都得到了广泛的审查和讨论。此外,重点是四种策略如何相互影响,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。通过(ii)人为地创建更多数据,(iii)将知识从丰富数据域转移到不良数据域或通过(iv)更改数据密集型算法以减少其对样本量的依赖性来提高数据效率,从而可以在小样本情况下表现良好。每种策略都得到了广泛的审查和讨论。此外,重点是四种策略如何相互影响,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。通过(ii)人为地创建更多数据,(iii)将知识从丰富数据域转移到不良数据域或通过(iv)更改数据密集型算法以减少其对样本量的依赖性来提高数据效率,从而可以在小样本情况下表现良好。每种策略都得到了广泛的审查和讨论。此外,重点是四种策略如何相互影响,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。或(iv)更改耗时的数据算法,以减少它们对样本数量的依赖性,从而使它们在小样本环境中表现良好。每种策略都得到了广泛的审查和讨论。此外,重点是四种策略如何相互影响,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。或(iv)更改耗时的数据算法,以减少它们对样本数量的依赖性,从而使它们在小样本环境中表现良好。每种策略都得到了广泛的审查和讨论。此外,重点是四种策略如何相互影响,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。重点放在这四种策略如何相互影响上,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。重点放在这四种策略如何相互影响上,以激发对更健壮和数据效率更高的算法的探索。最后,调查描述了局限性,讨论了研究挑战,并提出了未来在机器学习中提高数据效率研究的机会。

更新日期:2021-01-28
down
wechat
bug