当前位置: X-MOL 学术AStA. Adv. Stat. Anal. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Predicting the popularity of tweets using internal and external knowledge: an empirical Bayes type approach
AStA Advances in Statistical Analysis ( IF 1.4 ) Pub Date : 2021-02-26 , DOI: 10.1007/s10182-021-00390-z
Wai Hong Tan , Feng Chen

The problem of tweet popularity prediction, or forecasting the total number of retweets stemming from an ancestral tweet, has attracted considerable interest recently. The prediction can be accomplished by fitting a point process model to the sequence of retweet times up to a certain censoring time and project the fitted model to a future time point. However, models employing such approach tend to have inferior prediction accuracy when the censoring time is too short before sufficient information can accumulate. To overcome this, we propose an empirical Bayes type approach of parameter estimation to combine internal knowledge on the times of historical retweets up to the censoring time and external knowledge on complete retweet sequences in the training data. We demonstrate the approach using several point process models with finite-dimensional parameters, where the prior distribution for the parameter of each model is constructed based on the external knowledge, and the likelihood is calculated based on the internal knowledge. The mode of the posterior distribution is used as the estimator of the finite-dimensional parameter, and the mean of the predictive distribution for the number of retweets implied by each of the estimated models is used to predict the tweet popularity. Using a large Twitter data set, we reveal that the proposed methodology not only enables prediction at time zero before the arrival of any retweet event, but also substantially improves the prediction performances of existing models, especially at earlier censoring times.



中文翻译:

使用内部和外部知识预测推文的流行度:经验贝叶斯类型方法

最近,人们开始关注推文流行度预测或预测源自祖传推文的转发总数的问题。可以通过将点过程模型拟合到某个审查时间之前的转推时间序列并将投影的模型投影到将来的时间点来完成预测。但是,当审查时间太短而无法累积足够的信息时,采用这种方法的模型往往会降低预测精度。为了克服这个问题,我们提出了一种经验估计的贝叶斯(Bayes)类型的参数估计方法,该方法将历史推文的内部知识(直到审查时间)与训练数据中完整推文序列的外部知识相结合。我们演示了使用带有有限维参数的多个点过程模型的方法,其中基于外部知识构造每个模型的参数的先验分布,并基于内部知识计算似然性。后验分布的模式用作有限维参数的估计量,每个估计模型所隐含的推文数量的预测分布的均值用于预测推文的流行度。使用大量的Twitter数据集,我们发现,所提出的方法不仅可以在任何转发事件到来之前的零时进行预测,而且还可以显着改善现有模型的预测性能,尤其是在较早的审查时间。其中每个模型的参数的先验分布是基于外部知识构造的,而似然性是根据内部知识计算的。后验分布的模式用作有限维参数的估计量,每个估计模型所隐含的推文数量的预测分布的均值用于预测推文的流行度。使用大量的Twitter数据集,我们发现,所提出的方法不仅可以在任何转发事件到来之前的零时间进行预测,而且还可以显着提高现有模型的预测性能,尤其是在较早的审查时间。其中每个模型的参数的先验分布是基于外部知识构造的,而似然性是根据内部知识计算的。后验分布的模式用作有限维参数的估计量,每个估计模型所隐含的推文数量的预测分布的均值用于预测推文的流行度。使用大量的Twitter数据集,我们发现,所提出的方法不仅可以在任何转发事件到来之前的零时间进行预测,而且还可以显着提高现有模型的预测性能,尤其是在较早的审查时间。后验分布的模式用作有限维参数的估计量,每个估计模型所隐含的推文数量的预测分布的均值用于预测推文的流行度。使用大量的Twitter数据集,我们发现,所提出的方法不仅可以在任何转发事件到来之前的零时间进行预测,而且还可以显着提高现有模型的预测性能,尤其是在较早的审查时间。后验分布的模式用作有限维参数的估计量,每个估计模型所隐含的推文数量的预测分布的均值用于预测推文的流行度。使用大量的Twitter数据集,我们发现,所提出的方法不仅可以在任何转发事件到来之前的零时间进行预测,而且还可以显着提高现有模型的预测性能,尤其是在较早的审查时间。

更新日期:2021-02-26
down
wechat
bug