tesseract - 定义Tesseract中的一行 - Thinbug

定义Tesseract中的一行

时间：2014-04-10 11:43:56

标签： tesseract

我正在为扫描的银行对帐单进行文档识别。我所拥有的陈述是按行组织的，例如所附的。因为Tesseract在检测文本区域方面做得非常好，所以它打破了中间的线条（我假设这是因为线条中第一个块之间的大空白区域（出于隐私原因而模糊），和下一个（＆＃39; EUR＆＃39;或＆＃39; COURS＆＃39;）。

在特定文件中，行中所有元素的bbox都在2px左右，所以我可能会自己重建一行。然而，这似乎更像是一个黑客。有没有办法告诉Tesseract线条应该与文件本身一样宽？或者还有其他方法可以解决这个问题吗？我尝试过使用psm选项，但没有运气。

enter image description here

1 个答案:

答案 0 :(得分：1)

-psm 6 - 假设一个统一的文本块 - 应该可以工作。如果没有，您可能希望使用旧版本2.0x，它不执行页面布局分析。