标签: c# ocr tesseract
我正在使用PDF并将其切割成400多个部分,然后将这些部分提供给Tesseract。这是完美的。除了包含1,2或3个字符的字段。如果它有4个或更多,或Tesseract认为有4个或更多,它可以正常工作。
我在GitHub上使用CharlesW的C#包装器。
答案 0 :(得分:0)
正如nguyenq建议的那样,更改PageSegMode可以解决问题。我正在使用的wrapper有一个名为.DefaultPageSegMode的属性,可以让我解决问题。
.DefaultPageSegMode