我正在使用图像字幕,但是我很难准确理解术语novel object captioning
。这是否就是我们在句子描述对上训练了模型,然后将其应用于具有训练过程中从未出现过的对象的数据集吗?我是从Neural Baby Talk阅读的。 DCC在“简介”中也指出:
现有的最新字幕模型缺乏以下功能: 形成整合新对象的组成结构 具有已知概念,而没有图像对的明确示例。为了解决这个限制,我们建议 深度合成字幕机(DCC),它可以结合词汇单元的视觉基础来生成有关在字幕语料库(成对的图像句子数据)中不存在但在对象中存在的对象的描述 识别数据集(未配对的图像数据)和文本语料库 (未配对的文本数据)。
他们提到novel object captioning
排除了大约8类MS-COCO,但我并不真正理解此步骤的含义。
确保排除的对象 至少与某些包含的相似,我们将80 MSCOCO细分挑战中注释的对象 使用描述的word2vec嵌入中的向量 在第3.4节中,从每个群集中排除一个对象。的 选择以下单词:“瓶”,“公共汽车”,“沙发”,“微波炉”,“比萨饼”,“球拍”,“手提箱”和“斑马”。
对于第二个问题,我在此处添加,但需要更深入的说明:
评估我们的方法执行域外图像的能力 字幕,我们复制了现有的实验设计(Hendricks等 等人,2016)使用MSCOCO。按照这种方法,所有带有 说明八个选定对象之一(或其对象)的字幕 同义词)从图像标题训练集中排除。这个 将字幕训练集的大小从82,783张图像减少到 70,194张图像。但是,完整的字幕训练集已标记化 每张图片一袋单词,并可用作图片标签培训 数据。这样,在图像标题中看不到所选对象 训练数据,而不是图像标签训练数据。被排除 对象,由Hendricks等选择。等(2016)来自80个主要对象 MSCOCO中的类别包括:“瓶”,“公共汽车”,“沙发”,“微波炉”, “披萨”,“球拍”,“手提箱”和“斑马”。
然后,我应该如何理解out of domain image captioning
?与novel image captioning
一样吗?
有图像字幕经验丰富的人可以帮助我澄清这些问题吗?感谢您的帮助。