我正在开发一个需要在文档图像上找到特定文本块的项目。我已经找到了所有文本的边界框,通常是每行一个'但有时,如果间距太宽,则每个字的粒度。我能想到的最好的方法是智能群集解决方案。附件是一个图像作为一个例子。绿色矩形是检测到的文本,红色矩形是“坏”的例子。群集和蓝色的“好”'群集。
这些矩形存储在[top-left-x, top-left-y, width, height]
我可以对感兴趣的区域(良好的聚类)做出的唯一假设是:
我缺乏聚类算法的经验,没有其他解决方案真正浮现在脑海中。计算速度不是一个大问题,但精确度至关重要。我正在研究一种替代的,基于模板的解决方案,但更通用的解决方案通常是优越的解决方案。
我试图以这样一种方式处理矩形列表,即我可以推断出一行'行。或者列的列数'但正如你所看到的那样,这些方面存在相当大的差异。例如,矩形可以跨越两行',列也是如此。
也许我可以实现一个相当贪婪的聚类函数,然后通过质心的x值中的最小方差来过滤聚类?
问题:拥有更多数学/实践专业知识的人是否可以提出进一步的方法来解决这个问题?