当前位置: X-MOL 学术Mach. Learn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
autoBOT: evolving neuro-symbolic representations for explainable low resource text classification
Machine Learning ( IF 7.5 ) Pub Date : 2021-04-14 , DOI: 10.1007/s10994-021-05968-x
Blaž Škrlj 1, 2 , Matej Martinc 1, 2 , Nada Lavrač 1, 3 , Senja Pollak 1
Affiliation  

Learning from texts has been widely adopted throughout industry and science. While state-of-the-art neural language models have shown very promising results for text classification, they are expensive to (pre-)train, require large amounts of data and tuning of hundreds of millions or more parameters. This paper explores how automatically evolved text representations can serve as a basis for explainable, low-resource branch of models with competitive performance that are subject to automated hyperparameter tuning. We present autoBOT (automatic Bags-Of-Tokens), an autoML approach suitable for low resource learning scenarios, where both the hardware and the amount of data required for training are limited. The proposed approach consists of an evolutionary algorithm that jointly optimizes various sparse representations of a given text (including word, subword, POS tag, keyword-based, knowledge graph-based and relational features) and two types of document embeddings (non-sparse representations). The key idea of autoBOT is that, instead of evolving at the learner level, evolution is conducted at the representation level. The proposed method offers competitive classification performance on fourteen real-world classification tasks when compared against a competitive autoML approach that evolves ensemble models, as well as state-of-the-art neural language models such as BERT and RoBERTa. Moreover, the approach is explainable, as the importance of the parts of the input space is part of the final solution yielded by the proposed optimization procedure, offering potential for meta-transfer learning.



中文翻译:

autoBOT:用于可解释的低资源文本分类的进化神经符号表示

从文本中学习已在整个工业和科学领域被广泛采用。虽然最先进的神经语言模型在文本分类方面显示出非常有希望的结果,但它们的(预)训练成本很高,需要大量数据和数亿或更多参数的调整。本文探讨了自动进化的文本表示如何作为可解释的、低资源的模型分支的基础,这些分支具有受自动超参数调整的竞争性能。我们提出了 autoBOT(自动令牌袋),这是一种适用于低资源学习场景的自动机器学习方法,其中训练所需的硬件和数据量都有限。所提出的方法由一种进化算法组成,该算法联合优化给定文本(包括词、子词、POS 标签、基于关键字、基于知识图和关系特征)和两种类型的文档嵌入(非稀疏表示)。autoBOT 的关键思想是,进化不是在学习者级别进行,而是在表示级别进行。与演化集成模型的竞争性 autoML 方法以及最先进的神经语言模型(如 BERT 和 RoBERTa)相比,所提出的方法在 14 个真实世界分类任务上提供了具有竞争力的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提出的优化程序产生的最终解决方案的一部分,为元迁移学习提供了潜力。基于知识图和关系特征)和两种类型的文档嵌入(非稀疏表示)。autoBOT 的关键思想是,进化不是在学习者级别进行,而是在表示级别进行。与演化集成模型的竞争性 autoML 方法以及 BERT 和 RoBERTa 等最先进的神经语言模型相比,所提出的方法在 14 个现实世界分类任务上提供了具有竞争力的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提出的优化程序产生的最终解决方案的一部分,为元迁移学习提供了潜力。基于知识图和关系特征)和两种类型的文档嵌入(非稀疏表示)。autoBOT 的关键思想是,进化不是在学习者级别进行,而是在表示级别进行。与演化集成模型的竞争性 autoML 方法以及 BERT 和 RoBERTa 等最先进的神经语言模型相比,所提出的方法在 14 个现实世界分类任务上提供了具有竞争力的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提出的优化程序产生的最终解决方案的一部分,为元迁移学习提供了潜力。进化是在表征层面进行的。与演化集成模型的竞争性 autoML 方法以及 BERT 和 RoBERTa 等最先进的神经语言模型相比,所提出的方法在 14 个现实世界分类任务上提供了具有竞争力的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提出的优化程序产生的最终解决方案的一部分,为元迁移学习提供了潜力。进化是在表征层面进行的。与演化集成模型的竞争性 autoML 方法以及 BERT 和 RoBERTa 等最先进的神经语言模型相比,所提出的方法在 14 个现实世界分类任务上提供了具有竞争力的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提出的优化程序产生的最终解决方案的一部分,为元迁移学习提供了潜力。

更新日期:2021-04-15
down
wechat
bug