应用错误收集

我正在使用图像字幕，但是我很难准确理解术语novel object captioning。这是否就是我们在句子描述对上训练了模型，然后将其应用于具有训练过程中从未出现过的对象的数据集吗？我是从Neural Baby Talk阅读的。 DCC在“简介”中也指出：

现有的最新字幕模型缺乏以下功能：形成整合新对象的组成结构具有已知概念，而没有图像对的明确示例。为了解决这个限制，我们建议深度合成字幕机（DCC），它可以结合词汇单元的视觉基础来生成有关在字幕语料库（成对的图像句子数据）中不存在但在对象中存在的对象的描述识别数据集（未配对的图像数据）和文本语料库（未配对的文本数据）。

他们提到novel object captioning排除了大约8类MS-COCO，但我并不真正理解此步骤的含义。

确保排除的对象至少与某些包含的相似，我们将80 MSCOCO细分挑战中注释的对象使用描述的word2vec嵌入中的向量在第3.4节中，从每个群集中排除一个对象。的选择以下单词：“瓶”，“公共汽车”，“沙发”，“微波炉”，“比萨饼”，“球拍”，“手提箱”和“斑马”。

对于第二个问题，我在此处添加，但需要更深入的说明：

评估我们的方法执行域外图像的能力字幕，我们复制了现有的实验设计（Hendricks等等人，2016）使用MSCOCO。按照这种方法，所有带有说明八个选定对象之一（或其对象）的字幕同义词）从图像标题训练集中排除。这个将字幕训练集的大小从82,783张图像减少到 70,194张图像。但是，完整的字幕训练集已标记化每张图片一袋单词，并可用作图片标签培训数据。这样，在图像标题中看不到所选对象训练数据，而不是图像标签训练数据。被排除对象，由Hendricks等选择。等（2016）来自80个主要对象 MSCOCO中的类别包括：“瓶”，“公共汽车”，“沙发”，“微波炉”， “披萨”，“球拍”，“手提箱”和“斑马”。

然后，我应该如何理解out of domain image captioning？与novel image captioning一样吗？

有图像字幕经验丰富的人可以帮助我澄清这些问题吗？感谢您的帮助。

什么是新颖的对象字幕？为何在此任务中排除MS-COCO中的8个课程？

0 个答案: