当前位置:
X-MOL 学术
›
arXiv.cs.SE
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
ISPY: Automatic Issue-Solution Pair Extraction from Community Live Chats
arXiv - CS - Software Engineering Pub Date : 2021-09-15 , DOI: arxiv-2109.07055 Lin Shi, Ziyou Jiang, Ye Yang, Xiao Chen, Yumin Zhang, Fangwen Mu, Hanzhi Jiang, Qing Wang
arXiv - CS - Software Engineering Pub Date : 2021-09-15 , DOI: arxiv-2109.07055 Lin Shi, Ziyou Jiang, Ye Yang, Xiao Chen, Yumin Zhang, Fangwen Mu, Hanzhi Jiang, Qing Wang
Collaborative live chats are gaining popularity as a development
communication tool. In community live chatting, developers are likely to post
issues they encountered (e.g., setup issues and compile issues), and other
developers respond with possible solutions. Therefore, community live chats
contain rich sets of information for reported issues and their corresponding
solutions, which can be quite useful for knowledge sharing and future reuse if
extracted and restored in time. However, it remains challenging to accurately
mine such knowledge due to the noisy nature of interleaved dialogs in live chat
data. In this paper, we first formulate the problem of issue-solution pair
extraction from developer live chat data, and propose an automated approach,
named ISPY, based on natural language processing and deep learning techniques
with customized enhancements, to address the problem. Specifically, ISPY
automates three tasks: 1) Disentangle live chat logs, employing a feedforward
neural network to disentangle a conversation history into separate dialogs
automatically; 2) Detect dialogs discussing issues, using a novel convolutional
neural network (CNN), which consists of a BERT-based utterance embedding layer,
a context-aware dialog embedding layer, and an output layer; 3) Extract
appropriate utterances and combine them as corresponding solutions, based on
the same CNN structure but with different feeding inputs. To evaluate ISPY, we
compare it with six baselines, utilizing a dataset with 750 dialogs including
171 issue-solution pairs and evaluate ISPY from eight open source communities.
The results show that, for issue-detection, our approach achieves the F1 of
76%, and outperforms all baselines by 30%. Our approach achieves the F1 of 63%
for solution-extraction and outperforms the baselines by 20%.
中文翻译:
ISPY:从社区实时聊天中自动提取问题-解决方案对
协作实时聊天作为一种开发通信工具越来越受欢迎。在社区实时聊天中,开发人员很可能会发布他们遇到的问题(例如,设置问题和编译问题),其他开发人员会给出可能的解决方案。因此,社区实时聊天包含有关报告问题及其相应解决方案的丰富信息集,如果及时提取和恢复,这些信息对于知识共享和未来重用非常有用。然而,由于实时聊天数据中交错对话的嘈杂性质,准确挖掘此类知识仍然具有挑战性。在本文中,我们首先制定了从开发人员实时聊天数据中提取问题-解决方案对的问题,并提出了一种名为 ISPY 的自动化方法,基于具有定制增强功能的自然语言处理和深度学习技术来解决该问题。具体来说,ISPY 自动化了三项任务:1) 分解实时聊天日志,使用前馈神经网络自动将对话历史分解为单独的对话;2) 使用新颖的卷积神经网络 (CNN) 检测讨论问题的对话,该网络由基于 BERT 的话语嵌入层、上下文感知对话嵌入层和输出层组成;3)基于相同的CNN结构但具有不同的馈送输入,提取适当的话语并将它们组合为相应的解决方案。为了评估 ISPY,我们将其与六个基线进行比较,利用一个包含 750 个对话的数据集,包括 171 个问题-解决方案对,并评估来自八个开源社区的 ISPY。结果表明,对于问题检测,我们的方法达到了 76% 的 F1,并且比所有基线高 30%。我们的方法在解决方案提取方面实现了 63% 的 F1,并且比基线高出 20%。
更新日期:2021-09-16
中文翻译:
ISPY:从社区实时聊天中自动提取问题-解决方案对
协作实时聊天作为一种开发通信工具越来越受欢迎。在社区实时聊天中,开发人员很可能会发布他们遇到的问题(例如,设置问题和编译问题),其他开发人员会给出可能的解决方案。因此,社区实时聊天包含有关报告问题及其相应解决方案的丰富信息集,如果及时提取和恢复,这些信息对于知识共享和未来重用非常有用。然而,由于实时聊天数据中交错对话的嘈杂性质,准确挖掘此类知识仍然具有挑战性。在本文中,我们首先制定了从开发人员实时聊天数据中提取问题-解决方案对的问题,并提出了一种名为 ISPY 的自动化方法,基于具有定制增强功能的自然语言处理和深度学习技术来解决该问题。具体来说,ISPY 自动化了三项任务:1) 分解实时聊天日志,使用前馈神经网络自动将对话历史分解为单独的对话;2) 使用新颖的卷积神经网络 (CNN) 检测讨论问题的对话,该网络由基于 BERT 的话语嵌入层、上下文感知对话嵌入层和输出层组成;3)基于相同的CNN结构但具有不同的馈送输入,提取适当的话语并将它们组合为相应的解决方案。为了评估 ISPY,我们将其与六个基线进行比较,利用一个包含 750 个对话的数据集,包括 171 个问题-解决方案对,并评估来自八个开源社区的 ISPY。结果表明,对于问题检测,我们的方法达到了 76% 的 F1,并且比所有基线高 30%。我们的方法在解决方案提取方面实现了 63% 的 F1,并且比基线高出 20%。