如何使用ELKI索引 - OPTICS聚类

时间:2015-09-23 13:51:28

标签: cluster-analysis data-mining elki optics-algorithm

我是ELKI的初学者,我一直在使用它从.csv文件聚集大约10K的lat-lon点。一旦我的设置正确,我想扩展到1MM点。

我正在使用带有LngLatDistanceFunction的OPTICSXi算法

我一直在阅读“使用STR批量加载启用R * -tree索引”,以便看到性能的巨大改进。这些教程对我帮助不大。

有关如何实施此功能的任何提示?

1 个答案:

答案 0 :(得分:1)

在二维数据上使用空间R *索引的建议参数是:

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

对于更高维度的数据,需要更大的页面大小。页面大小为512-1024字节似乎是二维数据的最佳位置,但它也取决于您的数据。

要离散群集,您可以使用Xi提取:

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

要使用OPTICS从索引加速中受益,请为您的应用选择尽可能小的epsilon。参数在中,所有地球模型都在ELKI中。

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

最多使用2公里的距离。

确保区分latitude,longitudelongitude,latitude。使用这两个订单,您需要使用正确的距离函数:

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction