cluster-analysis - 聚类巨大的高维矢量 - Thinbug

聚类巨大的高维矢量

时间：2013-04-26 05:19:10

标签： cluster-analysis dimension

我有一个庞大的数据集，数据集包含10,000多个向量，每个向量现在是252个维度，然后我继续前进，因为我不是来自机器学习领域，也不是数学领域。我有一些问题要问：

1.我想减少每个向量的维数，但我不知道选择哪种算法。

2. KD-Tree是一个不错的选择吗？

1 个答案:

答案 0 :(得分：0)

继续，尝试不同的降维技术。没有一般的最佳，你需要尝试 out out。
K-d-tree通常不适用于252维度。因为它是为欧几里得和曼哈顿距离设计的，所以这些在252维度上没有太大意义。

但是只有10000个实例，您可能根本不需要索引。那很小。 10000 * 252 * 8字节= 20 MB，这不是很多。它很容易融入主存。