当前位置: X-MOL 学术IEEE Trans. Syst. Man Cybern. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Integrating Multisourced Texts in Online Business Intelligence Systems
IEEE Transactions on Systems, Man, and Cybernetics: Systems ( IF 8.6 ) Pub Date : 2020-05-01 , DOI: 10.1109/tsmc.2017.2710161
Jianping Cao , Senzhang Wang , Benxian Li , Xiao Wang , Zhaoyun Ding , Fei-Yue Wang

Online business intelligence systems often collect the texts from different sources, such as social media and news websites that can be heterogeneous in practice. These collections bring the difficulties of managing and organizing the comprehensive information hidden in different texts of the system. To more effectively organize the multisourced texts and help online users acquire wider knowledge, we propose a business intelligence system which integrates the multisourced texts from multisources. Regarding in many occasions, multisourced texts share some common contents with respect to the same topics. For example, a tweet and a news report may talk about the same event. Therefore, our goal is to correlate such texts of different sources with respect to the similar topics and get integrated more comprehensive information to facilitate other data mining tasks as well as online applications. To handle the problem, we propose a heterogeneous information network-based text aligning (HINTA) framework in this paper. HINTA applies meta-paths to calculate the text similarities, and constructs correlated pairs between the two types of texts. Next, HINTA first applies anchored pairs as bridges to combine the different types of texts. Finally, three different inference methods are employed to align the multisourced texts. Experimental results on real-world dataset show the effectiveness and efficiency of the framework in addressing the texts alignment problem.

中文翻译:

在在线商业智能系统中集成多源文本

在线商业智能系统通常从不同来源收集文本,例如社交媒体和新闻网站,它们在实践中可能是异类的。这些馆藏带来了管理和组织隐藏在系统不同文本中的综合信息的困难。为了更有效地组织多源文本并帮助在线用户获取更广泛的知识,我们提出了一种集成多源文本的商业智能系统。在很多情况下,多源文本对于相同的主题共享一些共同的内容。例如,一条推文和一条新闻报道可能谈论同一个事件。所以,我们的目标是将不同来源的此类文本与类似主题相关联,并获得更全面的集成信息,以促进其他数据挖掘任务以及在线应用程序。为了解决这个问题,我们在本文中提出了一种基于异构信息网络的文本对齐(HINTA)框架。HINTA 应用元路径来计算文本相似度,并在两种类型的文本之间构建相关对。接下来,HINTA 首先应用锚对作为桥梁来组合不同类型的文本。最后,采用三种不同的推理方法来对齐多源文本。在真实世界数据集上的实验结果表明该框架在解决文本对齐问题方面的有效性和效率。我们在本文中提出了一种基于异构信息网络的文本对齐(HINTA)框架。HINTA 应用元路径来计算文本相似度,并在两种类型的文本之间构建相关对。接下来,HINTA 首先应用锚对作为桥梁来组合不同类型的文本。最后,采用三种不同的推理方法来对齐多源文本。在真实世界数据集上的实验结果表明该框架在解决文本对齐问题方面的有效性和效率。我们在本文中提出了一种基于异构信息网络的文本对齐(HINTA)框架。HINTA 应用元路径来计算文本相似度,并在两种类型的文本之间构建相关对。接下来,HINTA 首先应用锚定对作为桥梁来组合不同类型的文本。最后,采用三种不同的推理方法来对齐多源文本。在真实世界数据集上的实验结果表明该框架在解决文本对齐问题方面的有效性和效率。最后,采用三种不同的推理方法来对齐多源文本。在真实世界数据集上的实验结果表明该框架在解决文本对齐问题方面的有效性和效率。最后,采用三种不同的推理方法来对齐多源文本。在真实世界数据集上的实验结果表明该框架在解决文本对齐问题方面的有效性和效率。
更新日期:2020-05-01
down
wechat
bug