Knowledge and Information Systems ( IF 2.7 ) Pub Date : 2020-07-10 , DOI: 10.1007/s10115-020-01482-z Anh Phan Tuan , Bach Tran , Thien Huu Nguyen , Linh Ngo Van , Khoat Than
Analyzing texts from social media encounters many challenges due to their unique characteristics of shortness, massiveness, and dynamic. Short texts do not provide enough context information, causing the failure of the traditional statistical models. Furthermore, many applications often face with massive and dynamic short texts, causing various computational challenges to the current batch learning algorithms. This paper presents a novel framework, namely bag of biterms modeling (BBM), for modeling massive, dynamic, and short text collections. BBM comprises of two main ingredients: (1) the concept of bag of biterms (BoB) for representing documents, and (2) a simple way to help statistical models to include BoB. Our framework can be easily deployed for a large class of probabilistic models, and we demonstrate its usefulness with two well-known models: latent Dirichlet allocation (LDA) and hierarchical Dirichlet process (HDP). By exploiting both terms (words) and biterms (pairs of words), the major advantages of BBM are: (1) it enhances the length of the documents and makes the context more coherent by emphasizing the word connotation and co-occurrence via bag of biterms, and (2) it inherits inference and learning algorithms from the primitive to make it straightforward to design online and streaming algorithms for short texts. Extensive experiments suggest that BBM outperforms several state-of-the-art models. We also point out that the BoB representation performs better than the traditional representations (e.g., bag of words, tf-idf) even for normal texts.
中文翻译:
短文本袋的双向术语建模
分析来自社交媒体的文本会遇到许多挑战,因为它们具有简短,庞大和动态的独特特征。短文本不能提供足够的上下文信息,从而导致传统统计模型的失败。此外,许多应用程序经常会遇到大量动态的短文本,这给当前的批处理学习算法带来了各种计算挑战。本文提出了一个新颖的框架,即双向术语建模袋(BBM),用于对大量,动态和短文本集合进行建模。BBM包含两个主要成分:(1)用于表示文档的双向术语袋(BoB)的概念,以及(2)帮助统计模型包括BoB的简单方法。我们的框架可以轻松地部署到各种概率模型中,并且我们通过两个著名的模型展示了其有用性:潜在狄利克雷分配(LDA)和分层狄利克雷过程(HDP)。通过同时利用术语(单词)和双词(单词对),BBM的主要优点是:(1)通过强调单词的含义和通过单词的同时出现来增加文档的长度并使上下文更加连贯。 (2)它从原语继承了推理和学习算法,从而使直接设计短文本的在线和流式算法变得容易。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。潜在Dirichlet分配(LDA)和分层Dirichlet流程(HDP)。通过同时利用术语(单词)和双词(单词对),BBM的主要优点是:(1)通过强调单词的含义和通过单词的同时出现来增加文档的长度并使上下文更加连贯。 (2)它从原语继承了推理和学习算法,从而使直接设计短文本的在线和流式算法变得容易。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。潜在Dirichlet分配(LDA)和分层Dirichlet流程(HDP)。通过同时利用术语(单词)和双词(单词对),BBM的主要优点是:(1)通过强调单词的含义和通过单词的同时出现来增加文档的长度并使上下文更加连贯。 (2)它从原语继承了推理和学习算法,从而使直接设计短文本的在线和流式算法变得容易。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。(1)通过强调单词的含义和并发性,增加了文档的长度,并使上下文更加连贯;(2)它从原语继承了推理和学习算法,从而可以轻松地在线设计以及短文本的流算法。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。(1)通过强调单词的含义和并发性,增加了文档的长度,并使上下文更加连贯;(2)它从原语继承了推理和学习算法,从而可以轻松地在线设计以及短文本的流算法。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。大量的实验表明,BBM的性能优于几种最新模型。我们还指出,即使对于普通文本,BoB表示也比传统表示(例如,词袋,tf-idf)表现更好。