应用错误收集

Tesseract是否忽略了扫描文档中的任何非文本区域？

时间：2012-04-17 15:05:31

标签： image-processing ocr tesseract text-extraction

我正在使用Tesseract，但我不知道它是否忽略了任何非文本区域并仅定位文本。我是否必须删除任何非文本区域作为更好输出的预处理步骤？

1 个答案:

答案 0 :(得分：2)

Tesseract有一个非常好的算法来检测文本，但它最终会给出假阳性的匹配。

理想情况下，您需要在将图像提交给tesseract之前对其进行预处理。前段时间我参与了类似的任务，所以我建议你看一下以下材料：