当前位置: X-MOL 学术Int. J. Parallel. Program › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
ASW: Accelerating Smith–Waterman Algorithm on Coupled CPU–GPU Architecture
International Journal of Parallel Programming ( IF 0.9 ) Pub Date : 2018-12-01 , DOI: 10.1007/s10766-018-0617-3
Huihui Zou , Shanjiang Tang , Ce Yu , Hao Fu , Yusen Li , Wenjie Tang

Smith–Waterman algorithm (SW) is a popular dynamic programming algorithm widely used in bioinformatics for local biological sequence alignment. Due to the $$O(n^2)$$O(n2) high time and space complexity of SW and growing size of biological data, it is crucial to accelerate SW for high performance. In view of the GPU high efficiency in science computation, many existing studies (e.g., CUDAlign, CUDASW++) speedup SW with GPU. However, the strong data dependency makes SW communication intensive, and the previous works fail to fully leverage the heterogeneous capabilities of the GPU machine for either the neglect of the CPU ability or the low bandwidth of PCI-e. In this paper, we propose ASW, which aims at accelerating SW algorithm with accelerated processing unit (APU), a heterogeneous processor integrates CPU and GPU in a single die and share the same memory. This coupled CPU–GPU architecture is more suitable for frequent data exchanging due to the elimination of PCI-e bus. For the full utilization of both CPU and GPU in APU system, ASW partitions the whole SW matrix into blocks and dynamically dispatches each block to CPU and GPU for the concurrent execution. A DAG-based dynamic scheduling method is presented to dispatch the workload automatically. Moreover, we also design a time cost model to determine the partition granularity in the matrix division phase. We have evaluated ASW on AMD A12 platform and our results show that ASW achieves a good performance of 7.2 GCUPS (gigacells update per second).

中文翻译:

ASW:在耦合 CPU-GPU 架构上加速 Smith-Waterman 算法

Smith-Waterman 算法 (SW) 是一种流行的动态规划算法,广泛用于生物信息学中的局部生物序列比对。由于 SW 的 $$O(n^2)$$O(n2) 高时间和空间复杂性以及不断增长的生物数据规模,加速 SW 以获得高性能至关重要。鉴于GPU在科学计算中的高效率,许多现有研究(例如,CUDAlign、CUDASW++)使用GPU来加速SW。然而,强大的数据依赖性使得SW通信变得密集,并且之前的工作由于忽视CPU能力或PCI-e的低带宽而未能充分利用GPU机器的异构能力。在本文中,我们提出了 ASW,旨在通过加速处理单元 (APU) 加速 SW 算法,异构处理器将 CPU 和 GPU 集成在单个芯片中并共享相同的内存。由于取消了 PCI-e 总线,这种耦合的 CPU-GPU 架构更适合频繁的数据交换。为了充分利用 APU 系统中 CPU 和 GPU,ASW 将整个 SW 矩阵划分为块,并将每个块动态分派给 CPU 和 GPU 进行并发执行。提出了一种基于DAG的动态调度方法来自动调度工作负载。此外,我们还设计了一个时间成本模型来确定矩阵划分阶段的划分粒度。我们在 AMD A12 平台上对 ASW 进行了评估,结果表明 ASW 实现了 7.2 GCUPS(每秒千兆单元更新)的良好性能。由于取消了 PCI-e 总线,这种耦合的 CPU-GPU 架构更适合频繁的数据交换。为了充分利用 APU 系统中 CPU 和 GPU,ASW 将整个 SW 矩阵划分为块,并将每个块动态分派给 CPU 和 GPU 进行并发执行。提出了一种基于DAG的动态调度方法来自动调度工作负载。此外,我们还设计了一个时间成本模型来确定矩阵划分阶段的划分粒度。我们在 AMD A12 平台上对 ASW 进行了评估,结果表明 ASW 实现了 7.2 GCUPS(每秒千兆单元更新)的良好性能。由于取消了 PCI-e 总线,这种耦合的 CPU-GPU 架构更适合频繁的数据交换。为了充分利用 APU 系统中 CPU 和 GPU,ASW 将整个 SW 矩阵划分为块,并将每个块动态分派给 CPU 和 GPU 进行并发执行。提出了一种基于DAG的动态调度方法来自动调度工作负载。此外,我们还设计了一个时间成本模型来确定矩阵划分阶段的划分粒度。我们在 AMD A12 平台上对 ASW 进行了评估,结果表明 ASW 实现了 7.2 GCUPS(每秒千兆单元更新)的良好性能。提出了一种基于DAG的动态调度方法来自动调度工作负载。此外,我们还设计了一个时间成本模型来确定矩阵划分阶段的划分粒度。我们在 AMD A12 平台上对 ASW 进行了评估,结果表明 ASW 实现了 7.2 GCUPS(每秒千兆单元更新)的良好性能。提出了一种基于DAG的动态调度方法来自动调度工作负载。此外,我们还设计了一个时间成本模型来确定矩阵划分阶段的划分粒度。我们在 AMD A12 平台上对 ASW 进行了评估,结果表明 ASW 实现了 7.2 GCUPS(每秒千兆单元更新)的良好性能。
更新日期:2018-12-01
down
wechat
bug