关于VC维度的问题

时间:2009-10-11 23:03:07

标签: computer-science machine-learning

如果我的输入空间为(1,2,.... 999)。我有一个概念类C,有10个概念:C0,C1,C2 ...... C9。

给定输入,如果输入包含数字i,则该输入是ci的元素。例如,数字123是c1和c2和c3的元素。

这个概念类C的VC Dimension是什么?

2 个答案:

答案 0 :(得分:2)

我不想在这里发布整个解决方案,但这里有点......

查找VC维度涉及在输入空间中找到C可以为shattered的点集。

我很容易找到一组可被C破碎的三个点,(14,24,3)。

找到一组可被C粉碎的四个点更难,但(157,256,367,4)有效。

很难找到可以被C粉碎的五个点,这强烈暗示C的VC维度(给定输入空间)是4.然而,棘手的部分证明找不到< em>任何五个可以粉碎的点。


实际上,这个问题可能有些含糊不清。这取决于概念类可以“正确地分类”一组点的意义。即,C1是否正确分类(1,2),其中1被赋予负类标签,2被给予正数(因为它正确地分区),或者只能C2做那个?我认为它可以,因为问题在某种程度上更有趣。

答案 1 :(得分:0)

这个答案是否真的正确?

破碎意味着对您选择的一组数据点,例如。 (14,24,3),对于它的每个可能的标记,在该集合中存在与该标记一致的概念。

但请考虑给出的示例(14,24,3),这里列出了这三个点的所有可能的真/假labellings,以及哪些类与它们一致:

0 0 0 C_5,C_6,C_7,C_8,C_9,C_0都与此一致

0 0 1 C_3(因为第三个数字是3,只有C_3类包含它)

0 1 0 C_2和C_4(因为“24”包含2和4)

0 1 1 C_2,C_4和C_3

1 0 0 C_1和C_4

1 0 1没有一致的类(因为“14”和“3”不共享任何共同的数字)

1 1 0 C_4(因为“14”和“24”都包含4)

1 1 1没有一致的类

因此类集不破坏此数据集。 (或者我误解了定义中的某些内容?)