标签: image-processing ocr tesseract text-extraction
我正在使用Tesseract,但我不知道它是否忽略了任何非文本区域并仅定位文本。我是否必须删除任何非文本区域作为更好输出的预处理步骤?
答案 0 :(得分:2)
Tesseract有一个非常好的算法来检测文本,但它最终会给出假阳性的匹配。
理想情况下,您需要在将图像提交给tesseract之前对其进行预处理。前段时间我参与了类似的任务,所以我建议你看一下以下材料:
OpenCV C++/Obj-C: Detecting a sheet of paper / Square Detection
Executing cv::warpPerspective for a fake deskewing on a set of cv::Point
Rotate cv::Mat using cv::warpAffine offsets destination image
Affine Transform, Simple Rotation and Scaling or something else entirely?