什么是“语义分割”与“分割”和“场景标记”相比?

时间:2015-11-26 22:25:37

标签: image-processing computer-vision object-detection image-segmentation semantic-segmentation

语义分割只是一个Pleonasm还是“语义分割”和“分割”之间存在差异? “场景标记”或“场景解析”有区别吗?

像素级和像素级分割有什么区别?

(旁边问题:当你有这种像素方式的注释时,你是免费获得物体检测还是还有事可做?)

请提供您的定义来源。

使用“语义分割”的来源

使用“场景标签”的来源

使用“像素级”

的来源
  • Pinheiro,Pedro O.和Ronan Collobert:“从卷积网络的图像级到像素级标签。” 2015年计算机视觉和模式识别会议论文集。(见http://arxiv.org/abs/1411.6228

使用“pixelwise”

的来源
  • Li,Hongsheng,Rui Zhao和Wang Xiaogang Wang:“用于像素分类的卷积神经网络的高效前向和后向传播。” arXiv preprint arXiv:1412.4526,2014。

Google Ngrams

“语义分割”似乎最近比“场景标记”更多地使用

enter image description here

3 个答案:

答案 0 :(得分:79)

"细分" 是将图片划分为多个" coherent"部分,但没有任何尝试理解这些部分代表什么。最着名的作品之一(但绝对不是第一部)是Shi and Malik "Normalized Cuts and Image Segmentation" PAMI 2000。这些作品试图定义" coherence"在低级线索方面,如颜色,纹理和边界的平滑度。您可以追溯这些作品到Gestalt theory

另一方面,"语义细分" 尝试将图像划分为语义上有意义的部分,将每个部分分类为其中一个部分 - 确定的课程。您还可以通过对每个像素(而不是整个图像/片段)进行分类来实现相同的目标。在这种情况下,您正在进行按像素分类,这导致相同的最终结果,但路径略有不同......

所以,我想你可以说"语义分割","场景标记"和"按像素分类"基本上是在努力实现相同的目标:从语义上理解图像中每个像素的作用。你可以采取很多途径来达到这个目标,这些路径会导致术语中的细微差别。

答案 1 :(得分:56)

我读了很多关于物体检测,物体识别,物体分割,图像分割和语义图像分割的论文,这里的结论可能不是真的:

对象识别:在给定的图像中,您必须检测所有对象(受限制的对象类取决于您的数据集),使用边界框对其进行本地化,并使用标签标记该边界框。在下面的图像中,您将看到最先进的物体识别的简单输出。

object recognition

对象检测:它类似于对象识别,但在此任务中,您只有两类对象分类,即对象边界框和非对象边界框。例如汽车检测:您必须使用其边界框检测给定图像中的所有汽车。

Object Detection

对象分割:与对象识别一样,您将识别图像中的所有对象,但输出应显示此对象对图像的像素进行分类。

object segmentation

图像分割:在图像分割中,您将分割图像的区域。您的输出不会标记段和图像区域彼此一致应该在同一段中。从图像中提取超级像素就是此任务或前景 - 背景分割的一个示例。

image segmentation

语义分割:在语义分割中,您必须使用一类对象(Car,Person,Dog,...)和非对象(Water,Sky,Road,...)标记每个像素。换句话说,在语义分割中,您将标记每个图像区域。

semantic segmenation

我认为像素级和像素级标注基本上是相同的可能是图像分割或语义分割。我也在this link 中回答了你的问题。

答案 2 :(得分:32)

以前的答案真的很棒,我想指出一些补充:

对象细分

这在研究界失宠的原因之一是因为它有问题含糊不清。对象分割过去只是意味着在图像中查找单个或少量的对象并在它们周围绘制边界,并且在大多数情况下,您仍然可以认为它意味着这一点。然而,它也开始用于表示可能可能是对象的blob的分割,从背景分割对象(更常见的是现在称为背景减法或背景分割或前景检测),甚至在某些情况下可以与使用边界框的物体识别互换使用(随着物体识别的深度神经网络方法的出现,这很快就停止了,但事先识别物体也意味着简单地用其中的物体标记整个图像) 。

是什么让#34;细分" "语义"吗

Simpy,每个片段,或者在每个像素的深度方法的情况下,基于类别给出类标签。一般而言,分割只是通过某种规则划分图像。 Meanshift分段,例如,从非常高的级别根据图像能量的变化划分数据。基于Graph cut的分割同样没有学习,而是直接从每个图像的属性中分离出来,与其余图像分开。更近期(基于神经网络的)方法使用被标记的像素来学习识别与特定类相关联的局部特征,然后基于哪个类对该像素具有最高置信度来对每个像素进行分类。通过这种方式,"像素标记"实际上是任务的更诚实的名称,以及"细分"组件是紧急的。

实例细分

可以说是对象分割最困难,最相关和最原始的含义,"实例细分"表示场景中各个对象的分段,无论它们是否是同一类型。然而,这是如此困难的原因之一是因为从视觉角度(在某种程度上是一种哲学的角度)是什么使一个"对象"实例并不完全清楚。身体部位是物体吗?这样的"部分对象"根据实例分割算法进行细分?如果他们被看作与整体分开,他们应该只是分段吗?如果复合物体应该清楚地连接两个东西,那么可分离的是一个或两个物体(除非正确制造,否则是粘在斧头,锤子或仅仅是棍子和岩石上面的岩石?)。此外,还不清楚如何区分实例。遗嘱是否与其附着的其他墙壁分开?应该计算实例的顺序是什么?他们出现了吗?靠近观点?尽管存在这些困难,对象的分割仍然是一个大问题,因为作为人类,我们始终与对象进行交互,而不管它们的类别标签是什么? (使用你周围的随机物体作为纸张重量,坐在不是椅子的东西上),所以一些数据集确实试图解决这个问题,但是主要的原因还没有引起人们对这个问题的关注,因为它没有足够的定义。 enter image description here

场景解析/场景标记

场景分析是场景标注的严格分割方法,也有一些模糊问题。从历史上看,场景标记意味着划分整个场景" (图像)分段并给它们所有类标签。但是,它也用于表示为图像区域提供类标签而不对其进行明确分割。关于分割,"语义分割" 意味着划分整个场景。对于语义分割,该算法旨在仅分割它所知道的对象,并且将通过其损失函数来惩罚以标记不具有任何标签的像素。例如,MS-COCO数据集是用于语义分段的数据集,其中仅一些对象被分段。 MS-COCO sample images