当前位置:
X-MOL 学术
›
arXiv.cs.SI
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Regular Expressions for Fast-response COVID-19 Text Classification
arXiv - CS - Social and Information Networks Pub Date : 2021-02-18 , DOI: arxiv-2102.09507 Igor L. Markov, Jacqueline Liu, Adam Vagner
arXiv - CS - Social and Information Networks Pub Date : 2021-02-18 , DOI: arxiv-2102.09507 Igor L. Markov, Jacqueline Liu, Adam Vagner
Text classifiers are at the core of many NLP applications and use a variety
of algorithmic approaches and software. This paper describes how Facebook
determines if a given piece of text - anything from a hashtag to a post -
belongs to a narrow topic such as COVID-19. To fully define a topic and
evaluate classifier performance we employ human-guided iterations of keyword
discovery, but do not require labeled data. For COVID-19, we build two sets of
regular expressions: (1) for 66 languages, with 99% precision and recall >50%,
(2) for the 11 most common languages, with precision >90% and recall >90%.
Regular expressions enable low-latency queries from multiple platforms.
\hush{PHP, Python, Java and SQL code} Response to challenges like COVID-19 is
fast and so are revisions. Comparisons to a DNN classifier show explainable
results, higher precision and recall, and less overfitting. Our learnings can
be applied to other narrow-topic classifiers.
中文翻译:
快速响应COVID-19文本分类的正则表达式
文本分类器是许多NLP应用程序的核心,并使用各种算法方法和软件。本文描述了Facebook如何确定给定的文本(从标签到帖子的任何内容)是否属于一个狭窄的主题,例如COVID-19。为了完全定义主题并评估分类器性能,我们采用了人工指导的关键字发现迭代,但不需要标记数据。对于COVID-19,我们构建了两组正则表达式:(1)用于66种语言,精度为99%,调用率> 50%;(2)用于11种最常见的语言,精度为> 90%,调用率> 90% 。正则表达式支持从多个平台进行低延迟查询。\ hush {PHP,Python,Java和SQL代码}快速响应诸如COVID-19之类的挑战,修订版也是如此。与DNN分类器的比较显示出可以解释的结果,更高的精度和召回率,以及更少的过拟合。我们的学习可以应用于其他窄主题分类器。
更新日期:2021-02-19
中文翻译:
快速响应COVID-19文本分类的正则表达式
文本分类器是许多NLP应用程序的核心,并使用各种算法方法和软件。本文描述了Facebook如何确定给定的文本(从标签到帖子的任何内容)是否属于一个狭窄的主题,例如COVID-19。为了完全定义主题并评估分类器性能,我们采用了人工指导的关键字发现迭代,但不需要标记数据。对于COVID-19,我们构建了两组正则表达式:(1)用于66种语言,精度为99%,调用率> 50%;(2)用于11种最常见的语言,精度为> 90%,调用率> 90% 。正则表达式支持从多个平台进行低延迟查询。\ hush {PHP,Python,Java和SQL代码}快速响应诸如COVID-19之类的挑战,修订版也是如此。与DNN分类器的比较显示出可以解释的结果,更高的精度和召回率,以及更少的过拟合。我们的学习可以应用于其他窄主题分类器。