当前位置: X-MOL 学术Inf. Process. Manag. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
node2hash: Graph aware deep semantic text hashing
Information Processing & Management ( IF 7.4 ) Pub Date : 2019-11-02 , DOI: 10.1016/j.ipm.2019.102143
Suthee Chaidaroon , Dae Hoon Park , Yi Chang , Yi Fang

Semantic hashing is an effective method for fast similarity search which maps high-dimensional data to a compact binary code that preserves the semantic information of the original data. Most existing text hashing approaches treat each document separately and only learn the hash codes from the content of the documents. However, in reality, documents are related to each other either explicitly through an observed linkage such as citations or implicitly through unobserved connections such as adjacency in the original space. The document relationships are pervasive in the real world while they are largely ignored in the prior semantic hashing work. In this paper, we propose node2hash, an unsupervised deep generative model for semantic text hashing by utilizing graph context. It is designed to incorporate both document content and connection information through a probabilistic formulation. Based on the deep generative modeling framework, node2hash employs deep neural networks to learn complex mappings from the original space to the hash space. Moreover, the probabilistic formulation enables a principled way to generate hash codes for unseen documents that do not have any connections with the existing documents. Besides, node2hash can go beyond one-hop connections about directed linked documents by considering more global graph information. We conduct comprehensive experiments on seven datasets with explicit and implicit connections. The results have demonstrated the effectiveness of node2hash over competitive baselines.



中文翻译:

node2hash:图感知深度语义文本哈希

语义散列是一种用于快速相似性搜索的有效方法,该方法将高维数据映射到保留原始数据语义信息的紧凑型二进制代码。大多数现有的文本哈希方法分别对待每个文档,并且仅从文档的内容中学习哈希码。但是,实际上,文档是通过观察到的链接(例如引文)显式地彼此关联的,或者是通过未观察到的连接(例如原始空间中的邻接度)隐式地相互关联的。文档关系在现实世界中无处不在,而在先前的语义哈希工作中却被很大程度上忽略。在本文中,我们提出了node2hash,这是一种利用图上下文对语义文本哈希进行无监督的深度生成模型。它旨在通过概率公式来合并文档内容和连接信息。基于深度生成建模框架,node2hash使用深度神经网络来学习从原始空间到哈希空间的复杂映射。此外,概率公式化为原理性的方式提供了一种方法,可以为与现有文档没有任何联系的看不见的文档生成哈希码。此外,通过考虑更多的全局图信息,node2hash可以超越关于定向链接文档的单跳连接。我们对七个具有显式和隐式连接的数据集进行了全面的实验。结果证明了node2hash在竞争基准之上的有效性。node2hash使用深度神经网络来学习从原始空间到哈希空间的复杂映射。此外,概率公式化为原理性的方式提供了一种方法,可以为与现有文档没有任何联系的看不见的文档生成哈希码。此外,通过考虑更多的全局图信息,node2hash可以超越关于定向链接文档的单跳连接。我们对七个具有显式和隐式连接的数据集进行了全面的实验。结果证明了node2hash在竞争基准之上的有效性。node2hash使用深度神经网络来学习从原始空间到哈希空间的复杂映射。此外,概率公式化为原理性的方式提供了一种方法,可以为与现有文档没有任何联系的看不见的文档生成哈希码。此外,通过考虑更多的全局图信息,node2hash可以超越关于定向链接文档的单跳连接。我们对七个具有显式和隐式连接的数据集进行了全面的实验。结果证明了node2hash在竞争基准之上的有效性。此外,通过考虑更多的全局图信息,node2hash可以超越关于定向链接文档的单跳连接。我们对七个具有显式和隐式连接的数据集进行了全面的实验。结果证明了node2hash在竞争基准之上的有效性。此外,通过考虑更多的全局图形信息,node2hash可以超越有关定向链接文档的单跳连接。我们对七个具有显式和隐式连接的数据集进行了全面的实验。结果证明了node2hash在竞争基准之上的有效性。

更新日期:2020-04-21
down
wechat
bug