黑与...白色图像文档聚类

时间:2017-11-23 19:51:46

标签: python opencv machine-learning computer-vision cluster-analysis

我有一些黑&白色文档(图像扫描),并希望根据布局对它们进行聚类。为了使事情更具体,说我有以下三个图像,前两个更可能落入同一个集群而不是第三个图像,因为前两个具有相对相似的布局。

我的问题是,群集文档的最佳方法是什么?现在我有几个初步的方法:

  • 获取图像哈希并比较哈希
  • 使用PCA和一些聚类技术(K-means)来比较低维表示
  • 使用OCR提取字符串,提取文本功能并进行比较
  • 使用OCR提取字符串并执行一些关键字搜索

还有其他更好的方法吗?同样,只有布局才重要。

1st image

2nd image

3rd image

1 个答案:

答案 0 :(得分:1)

不要尝试群集原始数据。

群集是无人监管的,它无法了解哪些属性很重要,哪些属性不重要。对于聚类算法,一切都很重要。

相反,首先定义布局相关功能。如长边。