全量化BERT的硬件加速，可实现高效的自然语言处理,arXiv - CS - Hardware Architecture - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.AR › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

全量化BERT的硬件加速，可实现高效的自然语言处理
arXiv - CS - Hardware Architecture Pub Date : 2021-03-04 , DOI: arxiv-2103.02800
Zejian Liu, Gang Li, Jian Cheng

BERT是最新的基于Transformer的模型，可在各种NLP任务中实现最先进的性能。在本文中，我们研究了用于边缘计算的FPGA上BERT的硬件加速。为了解决巨大的计算复杂性和内存占用的问题，我们建议对BERT（FQ-BERT）进行完全量化，包括权重，激活，softmax，层归一化以及所有中间结果。实验表明，FQ-BERT可以在重量损失可忽略不计的情况下实现7.94倍压缩。然后，我们提出针对FQ-BERT量身定制的加速器，并在Xilinx ZCU102和ZCU111 FPGA上进行评估。它的每瓦性能可以达到3.18 fps / W，分别比Intel®Core™i7-8700 CPU和NVIDIA K80 GPU分别高28.91倍和12.72倍。

"点击查看英文标题和摘要"

更新日期：2021-03-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>

阿拉丁

动态系统的数学与计算机建模

热点论文一站获取

购书送好礼

天然纤维材料

口腔微生物

英语语言编辑翻译加编辑

材料学领域约200份+SCI期刊

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

左智伟--多次发布

多次发布---上海中医药

西安电子

中科院

南科大

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug