Logram: Efficient Log Parsing Using n-Gram Dictionaries,arXiv - CS - Software Engineering

当前位置： X-MOL 学术 › arXiv.cs.SE › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Logram: Efficient Log Parsing Using n-Gram Dictionaries
arXiv - CS - Software Engineering Pub Date : 2020-01-07 , DOI: arxiv-2001.03038
Hetong Dai (Concordia University), Heng Li (Queen's University), Weiyi Shang (Concordia University), Tse-Hsun Chen (Concordia University), Che-Shao Chen (Concordia University)

Software systems usually record important runtime information in their logs. Logs help practitioners understand system runtime behaviors and diagnose field failures. As logs are usually very large in size, automated log analysis is needed to assist practitioners in their software operation and maintenance efforts. Typically, the first step of automated log analysis is log parsing, i.e., converting unstructured raw logs into structured data. However, log parsing is challenging, because logs are produced by static templates in the source code (i.e., logging statements) yet the templates are usually inaccessible when parsing logs. Prior work proposed automated log parsing approaches that have achieved high accuracy. However, as the volume of logs grows rapidly in the era of cloud computing, efficiency becomes a major concern in log parsing. In this work, we propose an automated log parsing approach, Logram, which leverages n-gram dictionaries to achieve efficient log parsing. We evaluated Logram on 16 public log datasets and compared Logram with five state-of-the-art log parsing approaches. We found that Logram achieves a similar parsing accuracy to the best existing approaches while outperforms these approaches in efficiency (i.e., 1.8 to 5.1 times faster than the second fastest approaches). Furthermore, we deployed Logram on Spark and we found that Logram scales out efficiently with the number of Spark nodes (e.g., with near-linear scalability) without sacrificing parsing accuracy. In addition, we demonstrated that Logram can support effective online parsing of logs, achieving similar parsing results and efficiency with the offline mode.

中文翻译：

Logram：使用 n-Gram 字典进行高效的日志解析

软件系统通常在其日志中记录重要的运行时信息。日志可帮助从业者了解系统运行时行为并诊断现场故障。由于日志通常非常大，因此需要自动化日志分析来帮助从业者进行软件运维工作。通常，自动化日志分析的第一步是日志解析，即将非结构化的原始日志转换为结构化数据。然而，日志解析具有挑战性，因为日志是由源代码（即日志语句）中的静态模板生成的，而在解析日志时通常无法访问模板。先前的工作提出了已实现高精度的自动化日志解析方法。然而，随着云计算时代日志量的快速增长，效率成为日志解析的主要问题。在这项工作中，我们提出了一种自动日志解析方法 Logram，它利用 n-gram 字典来实现高效的日志解析。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。我们提出了一种自动日志解析方法 Logram，它利用 n-gram 字典来实现高效的日志解析。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。我们提出了一种自动日志解析方法 Logram，它利用 n-gram 字典来实现高效的日志解析。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。它利用 n-gram 字典来实现高效的日志解析。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。它利用 n-gram 字典来实现高效的日志解析。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。我们在 16 个公共日志数据集上评估了 Logram，并将 Logram 与五种最先进的日志解析方法进行了比较。我们发现，Logram 实现了与现有最佳方法相似的解析精度，同时在效率上优于这些方法（即比第二快的方法快 1.8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。比第二快的方法快 8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。比第二快的方法快 8 到 5.1 倍）。此外，我们在 Spark 上部署了 Logram，我们发现 Logram 可以随着 Spark 节点的数量（例如，具有接近线性的可扩展性）有效地扩展而不会牺牲解析精度。此外，我们还证明了 Logram 可以支持有效的日志在线解析，实现与离线模式相似的解析结果和效率。

更新日期：2020-01-10

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>