假设我有一个500万点的目录,其x,y,z位置在3D空间中。对于这500万个点中的每一个,我想找到最接近它的10个点(直接的3D欧几里德距离公式)。
在python中,如果我对表中的每个元素执行一个简单的for循环,并且在for循环中执行数组操作(不是第二个for循环!)来查找当前点和所有其他点之间的距离目录,这将需要数天/周。我尝试了一些涉及排序和计算点之间距离的东西,只有+/-每个表元素周围几千行,但这仍然需要数天。
在python中执行此操作的更快捷方法是什么?有没有办法将for循环转换为某种矢量化操作?任何机器学习技巧(例如,在scikit-learn中)是否有帮助?或者以某种方式并行化代码帮助?
答案 0 :(得分:1)
我在R中使用了一个名为RANN的打包,它找到了“近似”的最近邻居。我在几分钟内用25 M观察值和8个维度运行它,结果对我的用例来说已经足够了。
我不确定我使用的软件包是否有Python版本,但我发现此链接有很多替代方法:Benchmark of ANN Libraries