定义Tesseract中的一行

时间:2014-04-10 11:43:56

标签: tesseract

我正在为扫描的银行对帐单进行文档识别。我所拥有的陈述是按行组织的,例如所附的。因为Tesseract在检测文本区域方面做得非常好,所以它打破了中间的线条(我假设这是因为线条中第一个块之间的大空白区域(出于隐私原因而模糊),和下一个(' EUR'或' COURS')。

在特定文件中,行中所有元素的bbox都在2px左右,所以我可能会自己重建一行。然而,这似乎更像是一个黑客。有没有办法告诉Tesseract线条应该与文件本身一样宽?或者还有其他方法可以解决这个问题吗?我尝试过使用psm选项,但没有运气。

enter image description here

1 个答案:

答案 0 :(得分:1)

-psm 6 - 假设一个统一的文本块 - 应该可以工作。如果没有,您可能希望使用旧版本2.0x,它不执行页面布局分析。