当前位置: X-MOL 学术arXiv.cs.DB › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DrugDBEmbed : Semantic Queries on Relational Database using Supervised Column Encodings
arXiv - CS - Databases Pub Date : 2020-07-05 , DOI: arxiv-2007.02384
Bortik Bandyopadhyay, Pranav Maneriker, Vedang Patel, Saumya Yashmohini Sahai, Ping Zhang, Srinivasan Parthasarathy

Traditional relational databases contain a lot of latent semantic information that have largely remained untapped due to the difficulty involved in automatically extracting such information. Recent works have proposed unsupervised machine learning approaches to extract such hidden information by textifying the database columns and then projecting the text tokens onto a fixed dimensional semantic vector space. However, in certain databases, task-specific class labels may be available, which unsupervised approaches are unable to lever in a principled manner. Also, when embeddings are generated at individual token level, then column encoding of multi-token text column has to be computed by taking the average of the vectors of the tokens present in that column for any given row. Such averaging approach may not produce the best semantic vector representation of the multi-token text column, as observed while encoding paragraphs or documents in natural language processing domain. With these shortcomings in mind, we propose a supervised machine learning approach using a Bi-LSTM based sequence encoder to directly generate column encodings for multi-token text columns of the DrugBank database, which contains gold standard drug-drug interaction (DDI) labels. Our text data driven encoding approach achieves very high Accuracy on the supervised DDI prediction task for some columns and we use those supervised column encodings to simulate and evaluate the Analogy SQL queries on relational data to demonstrate the efficacy of our technique.

中文翻译:

DrugDBEmbed:使用监督列编码对关系数据库进行语义查询

传统的关系数据库包含大量潜在的语义信息,由于难以自动提取此类信息,这些信息在很大程度上仍未被开发。最近的工作提出了无监督机器学习方法,通过文本化数据库列然后将文本标记投影到固定维度的语义向量空间来提取此类隐藏信息。但是,在某些数据库中,可能会提供特定于任务的类标签,而无监督方法无法以原则性的方式利用这些标签。此外,当在单个标记级别生成嵌入时,必须通过取任何给定行的该列中存在的标记的向量的平均值来计算多标记文本列的列编码。这种平均方法可能不会产生多标记文本列的最佳语义向量表示,正如在自然语言处理领域对段落或文档进行编码时所观察到的那样。考虑到这些缺点,我们提出了一种监督机器学习方法,使用基于 Bi-LSTM 的序列编码器直接为 DrugBank 数据库的多标记文本列生成列编码,其中包含黄金标准药物相互作用 (DDI) 标签。我们的文本数据驱动编码方法在某些列的监督 DDI 预测任务上实现了非常高的准确性,我们使用这些监督列编码来模拟和评估关系数据上的类比 SQL 查询,以证明我们技术的有效性。正如在自然语言处理领域对段落或文档进行编码时所观察到的那样。考虑到这些缺点,我们提出了一种监督机器学习方法,使用基于 Bi-LSTM 的序列编码器直接为 DrugBank 数据库的多标记文本列生成列编码,其中包含黄金标准药物相互作用 (DDI) 标签。我们的文本数据驱动编码方法在某些列的监督 DDI 预测任务上实现了非常高的准确性,我们使用这些监督列编码来模拟和评估关系数据上的类比 SQL 查询,以证明我们技术的有效性。正如在自然语言处理领域对段落或文档进行编码时所观察到的那样。考虑到这些缺点,我们提出了一种监督机器学习方法,使用基于 Bi-LSTM 的序列编码器直接为 DrugBank 数据库的多标记文本列生成列编码,其中包含黄金标准药物相互作用 (DDI) 标签。我们的文本数据驱动编码方法在某些列的监督 DDI 预测任务上实现了非常高的准确性,我们使用这些监督列编码来模拟和评估关系数据上的类比 SQL 查询,以证明我们技术的有效性。我们提出了一种监督机器学习方法,使用基于 Bi-LSTM 的序列编码器直接为 DrugBank 数据库的多标记文本列生成列编码,其中包含黄金标准药物相互作用 (DDI) 标签。我们的文本数据驱动编码方法在某些列的监督 DDI 预测任务上实现了非常高的准确性,我们使用这些监督列编码来模拟和评估关系数据上的类比 SQL 查询,以证明我们技术的有效性。我们提出了一种监督机器学习方法,使用基于 Bi-LSTM 的序列编码器直接为 DrugBank 数据库的多标记文本列生成列编码,其中包含黄金标准药物相互作用 (DDI) 标签。我们的文本数据驱动编码方法在某些列的监督 DDI 预测任务上实现了非常高的准确性,我们使用这些监督列编码来模拟和评估关系数据上的类比 SQL 查询,以证明我们技术的有效性。
更新日期:2020-07-07
down
wechat
bug