A word embedding-based approach to cross-lingual topic modeling,Knowledge and Information Systems

当前位置： X-MOL 学术 › Knowl. Inf. Syst. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

A word embedding-based approach to cross-lingual topic modeling
Knowledge and Information Systems ( IF 2.7 ) Pub Date : 2021-04-24 , DOI: 10.1007/s10115-021-01555-7
Chia-Hsuan Chang , San-Yih Hwang

The cross-lingual topic analysis aims at extracting latent topics from corpora of different languages. Early approaches rely on high-cost multilingual resources (e.g., a parallel corpus), which is hard to come by in many real cases. Some works only require a translation dictionary as a linkage between languages; however, when given an inappropriate dictionary (e.g., small coverage of dictionary), the cross-lingual topic model would shrink to a monolingual topic model and generate less diversified topics. Therefore, it is imperative to investigate a cross-lingual topic model requiring fewer bilingual resources. Recently, some space-mapping techniques have been proposed to help align multiple word embedding of different languages into a quality cross-lingual word embedding by referring to a small number of translation pairs. This work proposes a cross-lingual topic model, called Cb-CLTM, which incorporates with cross-lingual word embedding. To leverage the power of word semantics and the linkage between languages from the cross-lingual word embedding, the Cb-CLTM considers each word as a continuous embedding vector rather than a discrete word type. The experiments demonstrate that, when cross-lingual word space exhibits strong isomorphism, Cb-CLTM can generate more coherent topics with higher diversity and induce better representations of documents across languages for further tasks such as cross-lingual document clustering and classification. When the cross-lingual word space is less isomorphic, Cb-CLTM generates less coherent topics yet still prevails in topic diversity and document classification.

中文翻译：

基于词嵌入的跨语言主题建模方法

跨语言主题分析旨在从不同语言的语料库中提取潜在主题。早期方法依赖于高成本的多语言资源（例如，并行语料库），在许多实际情况下很难做到这一点。有些作品只需要翻译词典作为语言之间的链接；然而，当给定不适当的字典时（例如，字典覆盖范围较小），跨语言主题模型将缩小为单语言主题模型，并产生较少多样化的主题。因此，必须研究需要较少双语资源的跨语言主题模型。近来，已经提出了一些空间映射技术，以通过参考少量翻译对来帮助将不同语言的多个单词嵌入对准为高质量的跨语言单词嵌入。这项工作提出了一种称为Cb-CLTM的跨语言主题模型，该模型结合了跨语言单词嵌入。为了利用跨语言单词嵌入的单词语义功能和语言之间的联系，Cb-CLTM将每个单词视为连续的嵌入向量，而不是离散的单词类型。实验表明，当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。结合了跨语言单词嵌入。为了利用跨语言单词嵌入的单词语义功能和语言之间的联系，Cb-CLTM将每个单词视为连续的嵌入向量，而不是离散的单词类型。实验表明，当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。结合了跨语言单词嵌入。为了利用跨语言单词嵌入的单词语义功能和语言之间的联系，Cb-CLTM将每个单词视为连续的嵌入向量，而不是离散的单词类型。实验表明，当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较低时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。为了利用跨语言单词嵌入的单词语义功能和语言之间的联系，Cb-CLTM将每个单词视为连续的嵌入向量，而不是离散的单词类型。实验表明，当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。为了利用跨语言单词嵌入的单词语义功能和语言之间的联系，Cb-CLTM将每个单词视为连续的嵌入向量，而不是离散的单词类型。实验表明，当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。当跨语言单词空间表现出很强的同构性时，Cb-CLTM可以生成具有更高多样性的更连贯的主题，并为跨语言文档聚类和分类等其他任务提供更好的跨语言文档表示。当跨语言单词空间的同构性较小时，Cb-CLTM生成的主题不那么连贯，但仍然在主题多样性和文档分类中占主导地位。

更新日期：2021-04-24

点击分享查看原文

点击收藏

阅读更多本刊最新论文本刊介绍/投稿指南

全部期刊列表>>