我有一个庞大的数据集,数据集包含10,000多个向量,每个向量现在是252个维度,然后我继续前进,因为我不是来自机器学习领域,也不是数学领域。我有一些问题要问:
1.我想减少每个向量的维数,但我不知道选择哪种算法。
2. KD-Tree是一个不错的选择吗?
答案 0 :(得分:0)
继续,尝试不同的降维技术。没有一般的最佳,你需要尝试 out out。
K-d-tree通常不适用于252维度。因为它是为欧几里得和曼哈顿距离设计的,所以这些在252维度上没有太大意义。
但是只有10000个实例,您可能根本不需要索引。那很小。 10000 * 252 * 8字节= 20 MB,这不是很多。它很容易融入主存。