当前位置: X-MOL 学术IETE Tech. Rev. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Context-based Translation for the Out of Vocabulary Words Applied to Hindi-English Cross-Lingual Information Retrieval
IETE Technical Review ( IF 2.5 ) Pub Date : 2020-11-26 , DOI: 10.1080/02564602.2020.1843553
Vijay Kumar Sharma 1 , Namita Mittal 1 , Ankit Vidyarthi 2
Affiliation  

Cross-Lingual Information Retrieval (CLIR) provides flexibility to users to query in their regional (source) languages regardless the target documents languages. CLIR uses trending translation techniques Statistical Machine Translation (SMT) and Neural Machine Translation (NMT). SMT and NMT achieve good results for foreign languages but not for Indian languages due to non-absoluteness of the parallel corpus. Source language user queries may contain the Out Of Vocabulary (OOV) words which are not present in the parallel corpus such words may be skipped without performing translation by SMT. In this paper, a context-based translation algorithm is proposed to translate the OOV words by utilizing two unlabeled & unrelated large raw corpora (in source and target language) and a small bi-lingual parallel corpus. Since SMT performs better than NMT for Hindi to English translation as per the literature, therefore, experimental results are evaluated for FIRE datasets against baseline SMT. The proposed algorithm improves evaluation measures, Recall up to 6.04% (0.8785) for FIRE 2010 and up to 3.96% (0.7365) for FIRE 2011, & Mean Average Precision (MAP) up to 14.37% (0.3239) for FIRE 2010 and up to 5.46% (0.1988) for FIRE 2011, in comparison to the baseline SMT which achieves 0.8284 and 0.7084 Recall for FIRE 2010 and 2011, & 0.2832 and 0.1885 MAP for FIRE 2010 and 2011. An analysis for the number of OOV words shows that the proposed algorithm reduces the number of OOV more effectively, up to 0.81% for FIRE 2010 and 1.73% for FIRE 2011.



中文翻译:

用于印地语-英语跨语言信息检索的词汇外词的基于上下文的翻译

跨语言信息检索 (CLIR) 为用户提供了使用其区域(源)语言进行查询的灵活性,而不管目标文档语言。CLIR 使用趋势翻译技术统计机器翻译 (SMT) 和神经机器翻译 (NMT)。由于平行语料库的非绝对性,SMT 和 NMT 对外语取得了很好的效果,但对印度语却没有。源语言用户查询可能包含平行语料库中不存在的词汇表外 (OOV) 词,这些词可能会被跳过,而无需通过 SMT 执行翻译。在本文中,提出了一种基于上下文的翻译算法,利用两个未标记且不相关的大型原始语料库(源语言和目标语言)和一个小型双语平行语料库来翻译 OOV 单词。根据文献,由于 SMT 在印地语到英语翻译方面的表现优于 NMT,因此,针对基线 SMT 评估 FIRE 数据集的实验结果。所提出的算法改进了评估措施,FIRE 2010 的召回率高达 6.04% (0.8785),FIRE 2011 的召回率高达 3.96% (0.7365),FIRE 2010 的平均精度 (MAP) 高达 14.37% (0.3239) 和高达FIRE 2011 为 5.46% (0.1988),与基线 SMT 相比,FIRE 2010 和 2011 的召回率为 0.8284 和 0.7084,FIRE 2010 和 2011 的 MAP 为 0.2832 和 0.1885。对 OOV 字数的分析表明,提出的算法更有效地减少了 OOV 的数量,对于 FIRE 2010 高达 0.81%,对于 FIRE 2011 高达 1.73%。针对基线 SMT 评估 FIRE 数据集的实验结果。所提出的算法改进了评估措施,FIRE 2010 的召回率高达 6.04% (0.8785),FIRE 2011 的召回率高达 3.96% (0.7365),FIRE 2010 的平均精度 (MAP) 高达 14.37% (0.3239) 和高达FIRE 2011 为 5.46% (0.1988),与基线 SMT 相比,FIRE 2010 和 2011 的召回率为 0.8284 和 0.7084,FIRE 2010 和 2011 的 MAP 为 0.2832 和 0.1885。对 OOV 字数的分析表明,提出的算法更有效地减少了 OOV 的数量,对于 FIRE 2010 高达 0.81%,对于 FIRE 2011 高达 1.73%。针对基线 SMT 评估 FIRE 数据集的实验结果。所提出的算法改进了评估措施,FIRE 2010 的召回率高达 6.04% (0.8785),FIRE 2011 的召回率高达 3.96% (0.7365),FIRE 2010 的平均精度 (MAP) 高达 14.37% (0.3239) 和高达FIRE 2011 为 5.46% (0.1988),与基线 SMT 相比,FIRE 2010 和 2011 的召回率为 0.8284 和 0.7084,FIRE 2010 和 2011 的 MAP 为 0.2832 和 0.1885。对 OOV 字数的分析表明,提出的算法更有效地减少了 OOV 的数量,对于 FIRE 2010 高达 0.81%,对于 FIRE 2011 高达 1.73%。

更新日期:2020-11-26
down
wechat
bug