Tesseract是否忽略了扫描文档中的任何非文本区域?

时间:2012-04-17 15:05:31

标签: image-processing ocr tesseract text-extraction

我正在使用Tesseract,但我不知道它是否忽略了任何非文本区域并仅定位文本。我是否必须删除任何非文本区域作为更好输出的预处理步骤?

1 个答案:

答案 0 :(得分:2)

Tesseract有一个非常好的算法来检测文本,但它最终会给出假阳性的匹配。

理想情况下,您需要在将图像提交给tesseract之前对其进行预处理。前段时间我参与了类似的任务,所以我建议你看一下以下材料: