Question

我需要对包含给定区域中每个镇的数值的旧统计表进行OCR。我使用的是 Tesseract 4.0.0-beta.3 ，在大多数情况下，我都能得到可接受的结果，但是在另一些情况下，该软件无法识别表的结构，并且会跳过行或整列。 >

我试图通过检查--help-psm来应用一种更合适的配置，但是老实说，我无法弄清楚哪个可以改善我的结果。我还尝试将表切成单独的列，但结果甚至更糟。我想问题是某些单元格包含1或2位数字，并且行被认为是短的，这通常是好的，但是在这里这是个问题。您将使用哪些设置来优化结果？

Answer 1

在类似情况下，我正在使用

tesseract image test --psm 6 --oem 0 digits

我什至删除了左侧的文本-待处理分别。
数字识别还可以，但是我的问题是，我有〜10列，有些行中有些空白，但是tesseract有时会忽略垂直线，有时会意外地将其显示为“ 1”。
我尝试了几种设置，甚至删除了垂直线，但无法通过tesseract保留表结构以供以后计算机读取。

希望有帮助。