从单词位置检测文本列

时间:2011-10-04 18:48:49

标签: delphi text design-patterns ocr

我有一个tiff文件和上面的文本,它已经在早期阶段进行了OCR。单词的确切位置为信息(左上角,右下角)。我现在需要在用户绘制的矩形中阅读文本。

正常段落没问题,但我不知道应该如何处理文本列。如果有两个段落彼此相邻,只要采取行作为一个单一的线会使得结果不能使用。

是否有算法可以帮助我按正确的顺序排列单词?我猜我必须检查单词之间的空格来检测识别列的模式。我想避免直接处理图像,尽管它应该是可能的(但没有OCR)。

我也不确定列表/表的影响,例如在订单和&法案。这里以线为导向的方法可能会更好。

我正在Delphi中开发,但也可以欣赏其他语言的自适应算法。

编辑:我会尝试后的样本数据明天,但基本上我有词的阵列,(I可以很容易地绘制它们周围的矩形,例如)

的图像在它们各自的坐标。

1 个答案:

答案 0 :(得分:5)

假设您的原始文本分为两列:

Aaaa bb ccc ddddd     mmmm nn oooo pp
eee fff ggggg hh      qqq rrrrrrrrr
i jjjj kkk lll        sss tttt uu.

根据您的描述,听起来您的OCR已经为您提供了单个单词及其边界矩形。如果正交扫描原始页面,则给定行上的所有单词应具有相同(或非常接近)的y值。如果它们不完全相同,则可以对垂直位置进行整数除法,其中只有一小部分典型的箱高。那应该聚集y值。您可以对x坐标执行类似的处理,以确保列边缘的单词也具有相同的x值。

要检测单独的列,我会尝试制作所有单词的所有“左”值的直方图(如果文本从右向左运行,则为右边缘)。您应该在每列的开头看到一个峰值。

你可以通过确保在每一行上候选开始之前最后一个方框的右坐标之间存在间隙来排除任何误报。差距应该至少与任何单词的最小宽度一样大。

然后,您可以通过检查左右坐标落入哪个水平范围,将您的单词划分为列组。在我们的示例中,Aaaalll中的单词将在第一个分区中结束,而mmmmuu.中的单词将在第二个分区中结束。

在每个分区中,您可以通过在y坐标上排序来在线分区。最后,对于每一行,您可以对x坐标进行排序。 (无论是按升序还是降序排序取决于您的坐标系和文本流向。)

同样的基本思想可以应用于表格和文本列,但是您可能需要进行一些调整来处理右对齐单元格等事情。