当前位置: X-MOL 学术ACM Trans. Embed. Comput. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Creating Hardware Component Knowledge Bases with Training Data Generation and Multi-task Learning
ACM Transactions on Embedded Computing Systems ( IF 2.8 ) Pub Date : 2020-07-07 , DOI: 10.1145/3391906
Luke Hsiao 1 , Sen Wu 1 , Nicholas Chiang 2 , Christopher Ré 3 , Philip Levis 3
Affiliation  

Hardware component databases are vital resources in designing embedded systems. Since creating these databases requires hundreds of thousands of hours of manual data entry, they are proprietary, limited in the data they provide, and have random data entry errors. We present a machine learning based approach for creating hardware component databases directly from datasheets. Extracting data directly from datasheets is challenging because: (1) the data is relational in nature and relies on non-local context, (2) the documents are filled with technical jargon, and (3) the datasheets are PDFs, a format that decouples visual locality from locality in the document. Addressing this complexity has traditionally relied on human input, making it costly to scale. Our approach uses a rich data model, weak supervision, data augmentation, and multi-task learning to create these knowledge bases in a matter of days. We evaluate the approach on datasheets of three types of components and achieve an average quality of 77 F1 points—quality comparable to existing human-curated knowledge bases. We perform application studies that demonstrate the extraction of multiple data modalities including numerical properties and images. We show how different sources of supervision such as heuristics and human labels have distinct advantages that can be utilized together to improve knowledge base quality. Finally, we present a case study to show how this approach changes the way practitioners create hardware component knowledge bases.

中文翻译:

通过训练数据生成和多任务学习创建硬件组件知识库

硬件组件数据库是设计嵌入式系统的重要资源。由于创建这些数据库需要数十万小时的手动数据输入,因此它们是专有的,提供的数据有限,并且存在随机数据输入错误。我们提出了一种基于机器学习的方法,用于直接从数据表创建硬件组件数据库。直接从数据表中提取数据具有挑战性,因为:(1) 数据本质上是关系数据,并且依赖于非本地上下文,(2) 文档充满了技术术语,以及 (3) 数据表是 PDF,一种解耦格式来自文档中位置的视觉位置。解决这种复杂性传统上依赖于人工输入,因此扩展成本很高。我们的方法使用丰富的数据模型、弱监督、数据增强、和多任务学习,在几天内创建这些知识库。我们在三种组件的数据表上评估该方法,并获得 77 F1 分的平均质量——质量可与现有的人工管理的知识库相媲美。我们进行应用研究,展示多种数据模式的提取,包括数值属性和图像。我们展示了启发式和人工标签等不同的监督来源如何具有明显的优势,可以一起使用来提高知识库的质量。最后,我们提供了一个案例研究,以展示这种方法如何改变从业者创建硬件组件知识库的方式。我们在三种组件的数据表上评估该方法,并获得 77 F1 分的平均质量——质量可与现有的人工管理的知识库相媲美。我们进行应用研究,展示多种数据模式的提取,包括数值属性和图像。我们展示了启发式和人工标签等不同的监督来源如何具有明显的优势,可以一起使用来提高知识库的质量。最后,我们提供了一个案例研究,以展示这种方法如何改变从业者创建硬件组件知识库的方式。我们在三种组件的数据表上评估该方法,并获得 77 F1 分的平均质量——质量可与现有的人工管理的知识库相媲美。我们进行应用研究,展示多种数据模式的提取,包括数值属性和图像。我们展示了启发式和人工标签等不同的监督来源如何具有明显的优势,可以一起使用来提高知识库的质量。最后,我们提供了一个案例研究,以展示这种方法如何改变从业者创建硬件组件知识库的方式。我们展示了启发式和人工标签等不同的监督来源如何具有明显的优势,可以一起使用来提高知识库的质量。最后,我们提供了一个案例研究,以展示这种方法如何改变从业者创建硬件组件知识库的方式。我们展示了启发式和人工标签等不同的监督来源如何具有明显的优势,可以一起使用来提高知识库的质量。最后,我们提供了一个案例研究,以展示这种方法如何改变从业者创建硬件组件知识库的方式。
更新日期:2020-07-07
down
wechat
bug