当前位置:
X-MOL 学术
›
arXiv.cs.MM
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
PodSumm -- Podcast Audio Summarization
arXiv - CS - Multimedia Pub Date : 2020-09-22 , DOI: arxiv-2009.10315 Aneesh Vartakavi and Amanmeet Garg
arXiv - CS - Multimedia Pub Date : 2020-09-22 , DOI: arxiv-2009.10315 Aneesh Vartakavi and Amanmeet Garg
The diverse nature, scale, and specificity of podcasts present a unique
challenge to content discovery systems. Listeners often rely on text
descriptions of episodes provided by the podcast creators to discover new
content. Some factors like the presentation style of the narrator and
production quality are significant indicators of subjective user preference but
are difficult to quantify and not reflected in the text descriptions provided
by the podcast creators. We propose the automated creation of podcast audio
summaries to aid in content discovery and help listeners to quickly preview
podcast content before investing time in listening to an entire episode. In
this paper, we present a method to automatically construct a podcast summary
via guidance from the text-domain. Our method performs two key steps, namely,
audio to text transcription and text summary generation. Motivated by a lack of
datasets for this task, we curate an internal dataset, find an effective scheme
for data augmentation, and design a protocol to gather summaries from
annotators. We fine-tune a PreSumm[10] model with our augmented dataset and
perform an ablation study. Our method achieves ROUGE-F(1/2/L) scores of
0.63/0.53/0.63 on our dataset. We hope these results may inspire future
research in this direction.
中文翻译:
PodSumm -- 播客音频摘要
播客的多样性、规模和特殊性对内容发现系统提出了独特的挑战。听众通常依靠播客创建者提供的剧集文本描述来发现新内容。解说员的呈现方式和制作质量等一些因素是用户主观偏好的重要指标,但难以量化,也没有反映在播客创作者提供的文字描述中。我们建议自动创建播客音频摘要,以帮助发现内容并帮助听众在投入时间收听整个剧集之前快速预览播客内容。在本文中,我们提出了一种通过文本域的指导自动构建播客摘要的方法。我们的方法执行两个关键步骤,即,音频到文本转录和文本摘要生成。由于缺乏用于此任务的数据集,我们整理了一个内部数据集,找到了一种有效的数据增强方案,并设计了一个协议来从注释者那里收集摘要。我们使用我们的增强数据集微调 PreSumm[10] 模型并执行消融研究。我们的方法在我们的数据集上实现了 0.63/0.53/0.63 的 ROUGE-F(1/2/L) 分数。我们希望这些结果可以激发未来在这个方向上的研究。
更新日期:2020-09-23
中文翻译:
PodSumm -- 播客音频摘要
播客的多样性、规模和特殊性对内容发现系统提出了独特的挑战。听众通常依靠播客创建者提供的剧集文本描述来发现新内容。解说员的呈现方式和制作质量等一些因素是用户主观偏好的重要指标,但难以量化,也没有反映在播客创作者提供的文字描述中。我们建议自动创建播客音频摘要,以帮助发现内容并帮助听众在投入时间收听整个剧集之前快速预览播客内容。在本文中,我们提出了一种通过文本域的指导自动构建播客摘要的方法。我们的方法执行两个关键步骤,即,音频到文本转录和文本摘要生成。由于缺乏用于此任务的数据集,我们整理了一个内部数据集,找到了一种有效的数据增强方案,并设计了一个协议来从注释者那里收集摘要。我们使用我们的增强数据集微调 PreSumm[10] 模型并执行消融研究。我们的方法在我们的数据集上实现了 0.63/0.53/0.63 的 ROUGE-F(1/2/L) 分数。我们希望这些结果可以激发未来在这个方向上的研究。