是否有关于k-NN搜索问题的文章真的有大量的维度,如10k - 100k?
大多数对真实数据进行测试的文章都以10-50 dims运行,少数运行100-500。
在我的情况下,~100k特征维度中有~10 ^ 9个点,并且无法有效减少维数。
UPD .: 目前我们正在尝试调整和实现VP树,但很明显,这个维度上的任何树结构都不会很好。
第二种方法是LSH,但根据数据分布,可能存在准确性方面的大麻烦。
答案 0 :(得分:2)
查看FLANN库。
在this paper中,您将找到有关数据维度如何对最近邻匹配性能产生重大影响的因素之一以及FLANN采用的解决方案的论文。
答案 1 :(得分:1)
您是否正在使用kd-tree进行最近邻搜索? kd-tree在更高维度上恶化到几乎详尽的搜索。
在更高的维度中,通常建议使用近似最近邻搜索。这是原始论文的链接:http://cvs.cs.umd.edu/~mount/Papers/dist.pdf,如果有点太重,请试试这个:dimacs.rutgers.edu/Workshops/MiningTutorial/pindyk-slides.ppt
在最近邻搜索方面,影响决策选择的因素很多。您是否需要完全在主存储器中加载点,或者您可以使用辅助存储器也应该决定您的决定。