我在D维空间中有一个具有周期性边界条件的N点的点云,其中N可以在500到10 ^ 8之间,D可以在1到20之间。点的分布变化很大,从完全均匀非常聚集在一起。对于点云中的每个点,我需要找到该点的k个最近邻居。我还需要找出每个点的距离内存在多少个点,特别是最大距离。我不需要知道半径范围内的哪些点,只需要多少,但这将是一个很好的补充。
我尝试过kd-trees,但它们不处理包装边界,对于较大的树,重复是不可行的。此外,它在更高的维度上变慢。
我刚遇到Vantage Point Trees,并尝试了一些代码,但它比kd树慢。虽然我发现的代码使用递归搜索方法,没有批处理。一个积极的方面,它可以原生地处理包装条件,因此不需要重复。
我将要看看是否可以通过转换为迭代方法并查看是否可以批量搜索来从VP树中挤出更多性能,但我有一个想法。所有这些数据结构都可用于查找任意查询点的最近邻居,而我的查询点仅限于点云中的点。我认为这个限制可能允许一些更高性能的结构(可能是各种各样的导航网格?)。我试着寻找可以解决这个问题的结构,但是我的google-fu让我失望了。所以只是想知道是否有人知道可以处理以下内容的数据结构:
由于
答案 0 :(得分:2)
我怀疑对你这个非常复杂的问题有一个完整而明确的答案,所以我只是分享我的想法。 您的问题规范结合了许多不能很好地协同工作的事情(高维,非欧几里德度量,完全不同类型的查询)。如果算法必须假设一般情况,则必然很慢。
让我们首先了解已知良好数据结构的特殊情况。
如果所有这些都不适用(如果您有实际应用,请与我们分享),您的情况非常通用。
除了您提到的算法之外,您还应该尝试几何近邻访问树(GNAT)。 http://infolab.stanford.edu/~sergey/near.html 它们适用于通用指标(包括您的指标),也适用于非均匀分布。
另外,我认为你的期望很高。您可以将一个好的kd-tree实现(例如,https://github.com/mariusmuja/flann)与仅使用欧几里德度量的问题进行比较。如果需要很长时间,则不应期望更快的一般指标能够更快地解决。
不可否认,更通用的方法无法使用您的约束,即查询是云中的点。如果有任何这样的解决方案,我会非常感兴趣。
答案 1 :(得分:0)
如果Java是一个选项(性能类似于现在的C ++),请查看ELKI库。它提供了许多多维索引的实现,包括降维和空间填充曲线的方法。它还为kNN(euclidic / non-euclidic),群集检测,范围查询等提供了许多算法(您通常可以使用自定义距离度量来定义自己的查询过滤器)。 对于kNN,我可以特别推荐CoverTree和(有点慢,但更通用)PH-Tree,我测试了最多27个维度。 PH-Tree特别适用于高度集群和大型数据集(我测试了超过100,000,000个点)。 (免责声明:PH-Tree基于我自己的研究,但我认为您的用例非常合适。)
但据我所知,这些方法都不允许你提出的特殊优化。