我正在尝试OCR扫描表单,包含数字和一些文本字段。但是,在裁剪文本上运行tesseract不会产生正确的结果。
例如,对于数字7:
运行时给出的结果是1:
tesseract -psm 10 7test.jpg out digits
尽管七次中风。
与此同时,对于文本字段来说,它有更大的难度,不会产生以下字段:
有没有简单的方法来提高准确度?理想情况下,由于表格的手写性质,避免产生一个伟大的训练集。
在名字字段上,我可以改进方向并删除包围字段的行,但缺少任何输出都令人担忧。
对于数字,我不知道,除了可能从表格中生成手动训练集。