聚类巨大的高维矢量

时间:2013-04-26 05:19:10

标签: cluster-analysis dimension

我有一个庞大的数据集,数据集包含10,000多个向量,每个向量现在是252个维度,然后我继续前进,因为我不是来自机器学习领域,也不是数学领域。我有一些问题要问:

1.我想减少每个向量的维数,但我不知道选择哪种算法。

2. KD-Tree是一个不错的选择吗?

1 个答案:

答案 0 :(得分:0)

  1. 继续,尝试不同的降维技术。没有一般的最佳,你需要尝试 out out。

  2. K-d-tree通常不适用于252维度。因为它是为欧几里得和曼哈顿距离设计的,所以这些在252维度上没有太大意义。

  3. 但是只有10000个实例,您可能根本不需要索引。那很小。 10000 * 252 * 8字节= 20 MB,这不是很多。它很容易融入主存。