当前位置: X-MOL 学术IEEE Trans. Knowl. Data. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Simple statistics are sometime too simple: A case study in social media data
IEEE Transactions on Knowledge and Data Engineering ( IF 8.9 ) Pub Date : 2020-02-01 , DOI: 10.1109/tkde.2019.2899355
Dan Vilenchik

In this work we ask to which extent are simple statistics useful to make sense of social media data. By simple statistics we mean counting and bookkeeping type features such as the number of likes given to a user's post, a user's number of friends, etc. We find that relying solely on simple statistics is not always a good approach. Specifically, we develop a statistical framework that we term semantic shattering which allows to detect semantic inconsistencies in the data that may occur due to relying solely on simple statistics. We apply our framework to simple-statistics data collected from six online social media platforms and arrive at a surprising counter-intuitive finding in three of them, Twitter, Instagram and YouTube. We find that overall, the activity of the user is not correlated with the feedback that the user receives on that activity. A hint to understand this phenomenon may be found in the fact that the activity-feedback shattering did not occur in LinkedIn, Steam and Flickr. A possible explanation for this separation is the amount of effort required to produce content. The lesser the effort the lesser the correlation between activity and feedback. The amount of effort may be a proxy to the level of commitment that the users feel towards each other in the network, and indeed sociologists claim that commitment explains consistent human behavior, or lack thereof. However, the amount of effort or the level of commitment are by no means a simple statistic.

中文翻译:

简单的统计有时太简单:社交媒体数据中的案例研究

在这项工作中,我们询问简单统计在多大程度上有助于理解社交媒体数据。简单统计是指计数和簿记类型的特征,例如用户帖子的点赞数、用户的好友数等。我们发现仅依靠简单统计并不总是一种好方法。具体来说,我们开发了一个统计框架,我们称之为语义粉碎,它允许检测由于仅依赖简单统计而可能发生的数据中的语义不一致。我们将我们的框架应用于从六个在线社交媒体平台收集的简单统计数据,并在其中三个平台(Twitter、Instagram 和 YouTube)中得出了令人惊讶的违反直觉的发现。我们发现,总体而言,用户的活动与用户收到的关于该活动的反馈无关。LinkedIn、Steam 和 Flickr 中没有发生活动反馈破碎的事实可以为理解这种现象提供一个线索。这种分离的一个可能解释是制作内容所需的工作量。努力越少,活动和反馈之间的相关性就越小。努力的数量可以代表用户在网络中对彼此的承诺程度,实际上社会学家声称承诺解释了一致的人类行为,或者缺乏这种行为。然而,努力的数量或承诺的水平绝不是一个简单的统计数据。LinkedIn、Steam 和 Flickr 中没有发生活动反馈破碎的事实可以为理解这种现象提供线索。这种分离的一个可能解释是制作内容所需的工作量。努力越少,活动和反馈之间的相关性就越小。努力的数量可以代表用户在网络中对彼此的承诺程度,实际上社会学家声称承诺解释了一致的人类行为,或者缺乏这种行为。然而,努力的数量或承诺的水平绝不是一个简单的统计数据。LinkedIn、Steam 和 Flickr 中没有发生活动反馈破碎的事实可以为理解这种现象提供线索。这种分离的一个可能解释是制作内容所需的工作量。努力越少,活动和反馈之间的相关性就越小。努力的数量可以代表用户在网络中对彼此的承诺程度,实际上社会学家声称承诺解释了一致的人类行为,或者缺乏这种行为。然而,努力的数量或承诺的水平绝不是一个简单的统计数据。努力的数量可以代表用户在网络中对彼此的承诺程度,实际上社会学家声称承诺解释了一致的人类行为,或者缺乏这种行为。然而,努力的数量或承诺的水平绝不是一个简单的统计数据。努力的数量可以代表用户在网络中对彼此的承诺程度,实际上社会学家声称承诺解释了一致的人类行为,或者缺乏这种行为。然而,努力的数量或承诺的水平绝不是一个简单的统计数据。
更新日期:2020-02-01
down
wechat
bug