我是ELKI的初学者,我一直在使用它从.csv文件聚集大约10K的lat-lon点。一旦我的设置正确,我想扩展到1MM点。
我正在使用带有LngLatDistanceFunction的OPTICSXi算法
我一直在阅读“使用STR批量加载启用R * -tree索引”,以便看到性能的巨大改进。这些教程对我帮助不大。
有关如何实施此功能的任何提示?
答案 0 :(得分:1)
在二维数据上使用空间R *索引的建议参数是:
-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit
对于更高维度的数据,需要更大的页面大小。页面大小为512-1024字节似乎是二维数据的最佳位置,但它也取决于您的数据。
要离散群集,您可以使用Xi提取:
-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005
要使用OPTICS从索引加速中受益,请为您的应用选择尽可能小的epsilon。参数在米中,所有地球模型都在ELKI中。
-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10
最多使用2公里的距离。
确保区分latitude,longitude
和longitude,latitude
。使用这两个订单,您需要使用正确的距离函数:
geo.LatLngDistanceFunction
geo.LngLatDistanceFunction