当前位置: X-MOL 学术J. Supercomput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
NestMSA: a new multiple sequence alignment algorithm
The Journal of Supercomputing ( IF 3.3 ) Pub Date : 2020-02-19 , DOI: 10.1007/s11227-020-03206-0
Mohammed Kayed , Ahmed A. Elngar

Multiple sequence alignment (MSA) is a core problem in many applications. Various optimization algorithms such as genetic algorithm and particle swarm optimization (PSO) have been used to solve this problem, where all of them are adapted to work in the bioinformatics domain. This paper defines the MSA problem, suggests a novel MSA algorithm called ‘NestMSA’ and evaluates it in two domains: Web data extraction and removing different URLs with similar text (DUST). The suggested algorithm is inspired by the PSO optimization algorithm. It is not a generalization of a two-sequence alignment algorithm as it processes all the sequences at the same time. Therefore, it looks globally at the same time on all sequences. Different from other PSO-based alignment algorithms, swarm particles in the proposed NestMSA algorithm are nested inside the sequences and communicated together to align them. Therefore, global maximum is guaranteed in our algorithm. Furthermore, this work suggests a new objective function which both maximizes the number of matched characters and minimizes the number of gaps inserted in the sequences. The running time complexity and the efficiency of NestMSA are addressed in this paper. The experiments show an encouraging result as it outperforms the two approaches DCA and TEX in the Web data extraction domain (95% and 96% of recall and precision, respectively). Furthermore, it gives a high-performance result in the DUST domain (95%, 93% and 92% of recall, precision and SPS score, respectively).

中文翻译:

NestMSA:一种新的多序列比对算法

多序列比对 (MSA) 是许多应用中的核心问题。各种优化算法,如遗传算法和粒子群优化 (PSO) 已被用于解决这个问题,所有这些算法都适用于生物信息学领域。本文定义了 MSA 问题,提出了一种名为“NestMSA”的新型 MSA 算法,并在两个领域对其进行了评估:Web 数据提取和删除具有相似文本的不同 URL (DUST)。建议的算法受到 PSO 优化算法的启发。它不是双序列比对算法的推广,因为它同时处理所有序列。因此,它在所有序列上同时查看全局。与其他基于 PSO 的对齐算法不同,提出的 NestMSA 算法中的群粒子嵌套在序列内并一起通信以对齐它们。因此,我们的算法保证了全局最大值。此外,这项工作提出了一个新的目标函数,它既可以最大化匹配字符的数量,又可以最小化序列中插入的空白数量。本文讨论了 NestMSA 的运行时间复杂度和效率。实验显示了令人鼓舞的结果,因为它在 Web 数据提取领域(召回率和准确率分别为 95% 和 96%)优于 DCA 和 TEX 两种方法。此外,它在 DUST 域中给出了高性能结果(分别为召回率、精度和 SPS 分数的 95%、93% 和 92%)。这项工作提出了一个新的目标函数,它既可以最大化匹配字符的数量,又可以最小化序列中插入的空白数量。本文讨论了 NestMSA 的运行时间复杂度和效率。实验显示了令人鼓舞的结果,因为它在 Web 数据提取领域(召回率和准确率分别为 95% 和 96%)优于 DCA 和 TEX 两种方法。此外,它在 DUST 域中给出了高性能结果(分别为召回率、精度和 SPS 分数的 95%、93% 和 92%)。这项工作提出了一个新的目标函数,它既可以最大化匹配字符的数量,又可以最小化序列中插入的空白数量。本文讨论了 NestMSA 的运行时间复杂度和效率。实验显示了令人鼓舞的结果,因为它在 Web 数据提取领域(召回率和准确率分别为 95% 和 96%)优于 DCA 和 TEX 两种方法。此外,它在 DUST 域中给出了高性能结果(分别为召回率、精度和 SPS 分数的 95%、93% 和 92%)。实验显示了令人鼓舞的结果,因为它在 Web 数据提取领域(召回率和准确率分别为 95% 和 96%)优于 DCA 和 TEX 两种方法。此外,它在 DUST 域中给出了高性能结果(分别为召回率、精度和 SPS 分数的 95%、93% 和 92%)。实验显示了令人鼓舞的结果,因为它在 Web 数据提取领域(召回率和准确率分别为 95% 和 96%)优于 DCA 和 TEX 两种方法。此外,它在 DUST 域中给出了高性能结果(分别为召回率、精度和 SPS 分数的 95%、93% 和 92%)。
更新日期:2020-02-19
down
wechat
bug