数据集稀疏性对数据挖掘的影响

时间:2012-03-08 19:32:24

标签: algorithm data-mining information-retrieval

我想问一下,当使用距离矩阵(欧几里得)时,数据集中的稀疏度(大多数维度中的多个零值)将如何影响搜索效率或准确度。我已经在ANN和FLANN中测试了这样的稀疏数据集,与密集数据集相比,它在很长一段时间内搜索了它的最近邻居。为什么会这样?

2 个答案:

答案 0 :(得分:2)

这是一个非常广泛的问题,没有具体细节,很难回答。但是,让我试一试。

在欧氏空间中寻找最近邻居通常需要大约m * n次计算,其中m是维数,n是样本数。您可以使用m * n绘制每个数据集的时间统计数据,并查看它们的比较方式。

对于稀疏数据集,您还可以以字典格式存储样本。在这种情况下,平均时间大致为k * logk * n计算,其中k是非零元素的平均数量(假设字典以每个特征的随机访问时间为logk的方式存储。如果使用类似哈希表的东西logk部分几乎无法察觉。)

答案 1 :(得分:0)

这在很大程度上取决于您的实施。您使用什么,例如,在距离计算中使用稀疏优化?对于稀疏矢量,欧几里德距离不是最合理的距离,顺便说一句。