当前位置: X-MOL 学术Adv. Eng. Inform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A small samples training framework for deep Learning-based automatic information extraction: Case study of construction accident news reports analysis
Advanced Engineering Informatics ( IF 8.8 ) Pub Date : 2021-02-04 , DOI: 10.1016/j.aei.2021.101256
Dan Feng , Hainan Chen

Knowledge management is crucial for construction safety management. Widely collected and well-organized safety-related documents are recognized to be significant in raising the workers' security awareness and then to prevent hazards and accidents. To improve document processing efficiency, automatic information extraction plays an important role. However, currently, automatic information extraction modeling requires large scale training datasets. It is a big challenge for the engineering industry, especially for the fields which heavily rely on the experts’ knowledge. Limited data sources, and high time and labor costs make it not practical to establish a large-scale dataset. This work proposed a natural language data augmentation-based small samples training framework for automatic information extraction modeling. With the designed cross combination-based text data augmentation algorithm, the deep neural network can be employed to build up automatic information extraction models without large-scale raw data and manual annotations. Characters semantic coding is employed to avoid word segmentation and make sure that the framework can be utilized in different writing language systems. The BiLSTM-CRF model is adopted as the detection core to conduct character classification. Through a case study of two independent accident news report datasets analysis, the proposed framework has been validated. A reliable and robust automatic information extraction model can be established, even though with small samples training.



中文翻译:

基于深度学习的自动信息提取的小样本培训框架:建筑事故新闻报道分析的案例研究

知识管理对于建筑安全管理至关重要。广泛收集和组织良好的安全相关文件被认为对提高工人的安全意识以及预防危险和事故具有重要意义。为了提高文档处理效率,自动信息提取起着重要作用。但是,当前,自动信息提取建模需要大规模的训练数据集。对于工程行业,尤其​​是在严重依赖专家知识的领域,这是一个巨大的挑战。有限的数据源以及高昂的时间和人工成本使得建立大规模数据集不切实际。这项工作提出了一种基于自然语言数据扩充的小样本训练框架,用于自动信息提取建模。利用设计的基于交叉组合的文本数据扩充算法,可以使用深度神经网络来建立自动信息提取模型,而无需大规模的原始数据和手动注释。使用字符语义编码来避免单词分割,并确保可以在不同的书写语言系统中使用该框架。采用BiLSTM-CRF模型作为检测核心进行字符分类。通过对两个独立的事故新闻报道数据集进行分析的案例研究,验证了所提出的框架。即使经过小样本训练,也可以建立可靠而强大的自动信息提取模型。深度神经网络可用于建立自动信息提取模型,而无需大规模的原始数据和手动注释。使用字符语义编码来避免单词分割,并确保可以在不同的书写语言系统中使用该框架。采用BiLSTM-CRF模型作为检测核心进行字符分类。通过对两个独立的事故新闻报道数据集进行分析的案例研究,验证了所提出的框架。即使经过小样本训练,也可以建立可靠而强大的自动信息提取模型。深度神经网络可用于建立自动信息提取模型,而无需大规模的原始数据和手动注释。使用字符语义编码来避免单词分割,并确保可以在不同的书写语言系统中使用该框架。采用BiLSTM-CRF模型作为检测核心进行字符分类。通过对两个独立的事故新闻报道数据集进行分析的案例研究,验证了所提出的框架。即使经过小样本训练,也可以建立可靠而强大的自动信息提取模型。采用BiLSTM-CRF模型作为检测核心进行字符分类。通过对两个独立的事故新闻报道数据集进行分析的案例研究,验证了所提出的框架。即使经过小样本训练,也可以建立可靠而强大的自动信息提取模型。采用BiLSTM-CRF模型作为检测核心进行字符分类。通过对两个独立的事故新闻报道数据集进行分析的案例研究,验证了所提出的框架。即使经过小样本训练,也可以建立可靠而强大的自动信息提取模型。

更新日期:2021-02-04
down
wechat
bug