我认为,在“高维诅咒”的确切含义方面,数据科学界存在很大的误解。请考虑两个示例:
1)我想比较1000维和1001维空间中A点和B点之间的距离。 这是高维诅咒的一个示例,因为在1001维空间中距离很有可能会更高。
2)我想比较1000维空间中A点和B点之间的距离,以及1000维空间中A点和C点之间的距离。 这不是高维的诅咒,因为即使高维也保持固定。
第二条陈述正确吗?如果在二维空间中点A-B之间的距离比是A-C的两倍,我希望在相同点的1000维空间中看到两倍的距离。 这意味着高维度的诅咒只会在人们尝试比较不同数量维度之间的距离时发生。
答案 0 :(得分:0)
我想我已经做了一点测试就回答了这个问题。因此,我将离开这里,以防它对某人有用:
我做了一个实验,创建了一个虚拟数据集,其中包含3个观察值(A = 1,B = 2,C = 4),计算了点之间的欧几里得距离,并改变了多个特征以查看随着特征的增加,点之间的距离开始分化。
具有2个功能之后:
0 1 2 ratio
0 0.00 1.41 4.24 3.00
1 0.00 1.41 2.83 2.00
2 0.00 2.83 4.24 1.50
100个功能之后:
0 1 2 ratio
0 0.00 10.00 30.00 3.00
1 0.00 10.00 20.00 2.00
2 0.00 20.00 30.00 1.50
1000个功能之后:
0 1 2 ratio
0 0.00 31.62 94.87 3.00
1 0.00 31.62 63.25 2.00
2 0.00 63.25 94.87 1.50
具有10000个功能后:
0 1 2 ratio
0 0.00 100.00 300.00 3.00
1 0.00 100.00 200.00 2.00
2 0.00 200.00 300.00 1.50
这是什么意思?固定尺寸时,不会发生高尺寸的诅咒。可以看出,随着尺寸的增加,第一最近点(1)和第二最近点(2)之间的比率距离保持不变。
从角度来看,是的,您确实需要走更长的距离才能到达点,但这随着每个新增功能的总数据空间增加而有意义。但是,各点之间的旅行比例保持不变,这很重要。
老实说,除非您需要比较尺寸的n个变体中的相同点,否则我不会看到著名的“高维诅咒”这样的问题。