带数字表的Tesseract OCR

时间:2019-05-15 10:26:07

标签: ocr tesseract

我需要对包含给定区域中每个镇的数值的旧统计表进行OCR。我使用的是 Tesseract 4.0.0-beta.3 ,在大多数情况下,我都能得到可接受的结果,但是在另一些情况下,该软件无法识别表的结构,并且会跳过行或整列。 >

enter image description here

我试图通过检查--help-psm来应用一种更合适的配置,但是老实说,我无法弄清楚哪个可以改善我的结果。我还尝试将表切成单独的列,但结果甚至更糟。我想问题是某些单元格包含1或2位数字,并且行被认为是短的,这通常是好的,但是在这里这是个问题。您将使用哪些设置来优化结果?

1 个答案:

答案 0 :(得分:0)

在类似情况下,我正在使用

tesseract image test --psm 6 --oem 0 digits

我什至删除了左侧的文本-待处理 分别。
数字识别还可以,但是我的问题是,我有〜10列,有些行中有些空白,但是tesseract有时会忽略垂直线,有时会意外地将其显示为“ 1”。
我尝试了几种设置,甚至删除了垂直线,但无法通过tesseract保留表结构以供以后计算机读取。

希望有帮助。