应用错误收集

我正在尝试OCR扫描表单，包含数字和一些文本字段。但是，在裁剪文本上运行tesseract不会产生正确的结果。

例如，对于数字7： Number 7

运行时给出的结果是1：

tesseract -psm 10 7test.jpg out digits

尽管七次中风。

与此同时，对于文本字段来说，它有更大的难度，不会产生以下字段：

test name

有没有简单的方法来提高准确度？理想情况下，由于表格的手写性质，避免产生一个伟大的训练集。

在名字字段上，我可以改进方向并删除包围字段的行，但缺少任何输出都令人担忧。

对于数字，我不知道，除了可能从表格中生成手动训练集。