什么是新颖的对象字幕?为何在此任务中排除MS-COCO中的8个课程?

时间:2019-05-02 08:04:23

标签: image-processing deep-learning nlp computer-vision

我正在使用图像字幕,但是我很难准确理解术语novel object captioning。这是否就是我们在句子描述对上训练了模型,然后将其应用于具有训练过程中从未出现过的对象的数据集吗?我是从Neural Baby Talk阅读的。 DCC在“简介”中也指出:

  

现有的最新字幕模型缺乏以下功能:   形成整合新对象的组成结构   具有已知概念,而没有图像对的明确示例。为了解决这个限制,我们建议   深度合成字幕机(DCC),它可以结合词汇单元的视觉基础来生成有关在字幕语料库(成对的图像句子数据)中不存在但在对象中存在的对象的描述   识别数据集(未配对的图像数据)和文本语料库   (未配对的文本数据)。

他们提到novel object captioning排除了大约8类MS-COCO,但我并不真正理解此步骤的含义。

  

确保排除的对象   至少与某些包含的相似,我们将80   MSCOCO细分挑战中注释的对象   使用描述的word2vec嵌入中的向量   在第3.4节中,从每个群集中排除一个对象。的   选择以下单词:“瓶”,“公共汽车”,“沙发”,“微波炉”,“比萨饼”,“球拍”,“手提箱”和“斑马”。

对于第二个问题,我在此处添加,但需要更深入的说明:

  

评估我们的方法执行域外图像的能力   字幕,我们复制了现有的实验设计(Hendricks等   等人,2016)使用MSCOCO。按照这种方法,所有带有   说明八个选定对象之一(或其对象)的字幕   同义词)从图像标题训练集中排除。这个   将字幕训练集的大小从82,783张图像减少到   70,194张图像。但是,完整的字幕训练集已标记化   每张图片一袋单词,并可用作图片标签培训   数据。这样,在图像标题中看不到所选对象   训练数据,而不是图像标签训练数据。被排除   对象,由Hendricks等选择。等(2016)来自80个主要对象   MSCOCO中的类别包括:“瓶”,“公共汽车”,“沙发”,“微波炉”,   “披萨”,“球拍”,“手提箱”和“斑马”。

然后,我应该如何理解out of domain image captioning?与novel image captioning一样吗?

有图像字幕经验丰富的人可以帮助我澄清这些问题吗?感谢您的帮助。

0 个答案:

没有答案