当前位置: X-MOL 学术IEEE Trans. Pattern Anal. Mach. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
SPFTN: A Joint Learning Framework for Localizing and Segmenting Objects in Weakly Labeled Videos.
IEEE Transactions on Pattern Analysis and Machine Intelligence ( IF 23.6 ) Pub Date : 2018-11-13 , DOI: 10.1109/tpami.2018.2881114
Dingwen Zhang , Junwei Han , Le Yang , Dong Xu

Object localization and segmentation in weakly labeled videos are two interesting yet challenging tasks. Models built for simultaneous object localization and segmentation have been explored in the conventional fully supervised learning scenario to boost the performance of each task. However, none of the existing works has attempted to jointly learn object localization and segmentation models under weak supervision. To this end, we propose a joint learning framework called Self-Paced Fine-Tuning Network (SPFTN) for localizing and segmenting objects in weakly labelled videos. Learning the deep model jointly for object localization and segmentation under weak supervision is very challenging as the learning process of each single task would face serious ambiguity issue due to the lack of bounding-box or pixel-level supervision. To address this problem, our proposed deep SPFTN model is carefully designed with a novel multi-task self-paced learning objective, which leverages the task-specific prior knowledge and the knowledge that has been already captured to infer the confident training samples for each task. By aggregating the confident knowledge from each single task to mine reliable patterns and learning deep feature representation for both tasks, the proposed learning framework can address the ambiguity issue under weak supervision with simple optimization. Comprehensive experiments on the large-scale YouTube-Objects and DAVIS datasets demonstrate that the proposed approach achieves superior performance when compared with other state-of-the-art methods and the baseline networks/models.

中文翻译:

SPFTN:一种联合学习框架,用于对弱标签视频中的对象进行本地化和分段。

标记较弱的视频中的对象定位和分割是两个有趣但具有挑战性的任务。在常规的全监督学习场景中,已经探索了为同时进行对象定位和分割而构建的模型,以提高每个任务的性能。但是,现有的工作都没有尝试在弱监督下共同学习对象定位和分割模型。为此,我们提出了一个联合学习框架,称为自定步距微调网络(SPFTN),用于对标记较弱的视频中的对象进行本地化和分段。在弱监督下共同学习用于对象定位和分割的深度模型非常具有挑战性,因为缺少边界框或像素级监督,每个任务的学习过程都会面临严重的歧义问题。为了解决这个问题,我们精心设计的深度SPFTN模型是通过新颖的多任务自定进度学习目标精心设计的,该目标利用了特定于任务的先验知识和已经捕获的知识来推断每个任务的自信训练样本。通过汇总每个任务的可信知识以挖掘可靠的模式并学习这两个任务的深度特征表示,所提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。我们提出的深度SPFTN模型是通过新颖的多任务自定进度学习目标精心设计的,该目标利用了特定于任务的先验知识和已经捕获的知识来推断每个任务的自信训练样本。通过汇总每个任务的可信知识以挖掘可靠的模式并学习这两个任务的深度特征表示,所提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。我们提出的深度SPFTN模型是通过新颖的多任务自定进度学习目标精心设计的,该目标利用了特定于任务的先验知识和已经捕获的知识来推断每个任务的自信训练样本。通过汇总每个任务的可信知识以挖掘可靠的模式并学习这两个任务的深度特征表示,所提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。它利用了特定于任务的先验知识和已经获取的知识来推断每个任务的自信训练样本。通过汇总每个任务的可信知识以挖掘可靠的模式并学习这两个任务的深度特征表示,所提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。它利用了特定于任务的先验知识和已经获取的知识来推断每个任务的自信训练样本。通过汇总每个任务的可信知识以挖掘可靠的模式并学习这两个任务的深度特征表示,所提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。提出的学习框架可以通过简单的优化解决弱监督下的歧义问题。在大规模YouTube对象和DAVIS数据集上进行的综合实验表明,与其他最新方法和基准网络/模型相比,该方法具有更高的性能。
更新日期:2020-01-10
down
wechat
bug