网格上的群集矩形

时间:2013-09-05 07:40:46

标签: cluster-analysis scikit-learn dbscan

我尝试根据视觉接近度对网页内容进行聚类。 您可以在下面的链接上看到块的可视化显示 http://i.stack.imgur.com/qzGKE.png

我尝试使用带有sckikit的DBSCAN群集 - 学习下面的功能并没有太大的成功: - 块的左X坐标(因为内容经常左对齐) - 块的右X坐标(因为内容经常右对齐) - 块的顶部Y坐标(进一步关闭块)

您是否了解更好的功能

1 个答案:

答案 0 :(得分:0)

看一下广义的DBSCAN(虽然不适用于scipy)。

当物体重叠或几乎重叠(1个像素)时,如何将物体聚集在一起?

请参阅:DBSCAN并未真正使用距离。它基于二进制“足够接近”的决定。

另请注意,DBSCAN 不限于矢量。 DBSCAN可以处理任何可以为其定义“相似的”谓词的内容。

因此,您可能不需要“提取功能”,而是考虑何时希望两个对象位于同一群集中。