应用错误收集

算法为2D点创建边界矩形

时间：2014-06-23 17:35:08

标签： algorithm cluster-analysis data-mining k-means

输入是一系列点坐标（x0，y0），（x1，y1）......（xn，yn）（n不是很大，比如说~1000）。我们需要创建一些矩形作为这些点的边界框。没有必要找到全局最优解决方案。唯一的要求是如果两点之间的欧氏距离小于R，它们应该在同一个边界矩形中。我已经搜索了一段时间，它似乎是一个聚类问题，K-means方法可能是一个有用的方法。但是，输入点坐标不时没有特定的模式。因此，可能无法在K-mean中设置特定的K.我想知道是否有任何算法或方法可以解决这个问题？

2 个答案:

答案 0 :(得分：2)

唯一的要求是如果两点之间的欧氏距离小于R，它们应该在同一个边界矩形中

这是在R的高度切割的单链接层次聚类的定义。

请注意，这可能会产生重叠的矩形。

对于更快，更高效的方法，请查看R * -trees的批量加载策略，例如sort-tile-recursive。它不会满足您上面的“唯一”要求，但它会产生平衡的，非重叠的矩形。

K-means显然不适合您的要求。

答案 1 :(得分：0)

只有1000分，我会做以下几点：

1）计算出所有点对之间的差异。如果一对的距离小于R，则需要进入相同的边界矩形，因此请使用http://en.wikipedia.org/wiki/Disjoint-set_data_structure进行记录。

2）对于从Disjoint集数据结构中出来的每个子集，计算出其中点的最小和最大坐标，并使用它来为该子集中的点创建边界框。

如果您有更多积分或担心效率，您将希望提高阶段（1）效率。一种简单的方法是按照x坐标的顺序遍历各点，只保留最近点到最左点的R点，并使用平衡树结构从这些点找到最多R点以上或者在最近看到的点之前，在计算到最近点的距离之前。与此相关的一步是创建一个空间数据结构，以便更有效地找到距离为R的对。

请注意，对于某些输入，您将获得一个巨大的边界框，因为您有长链点，而对于其他一些输入，您将在边界框内获得边界框，例如，如果您的点是同心圆。