应用错误收集

Tesseract不提取数字

时间：2019-06-01 16:35:17

标签： tesseract python-tesseract

OCR之前（tiff图像）：

https://drive.google.com/open?id=1TBkhVx9sOtk8hXV-rcMSDE_DKnwK1V8o

使用tesseract进行OCR后（pdf）：

https://drive.google.com/open?id=1V_fPSassUE6q9W7i7ACKtjMXrftv01r9

您可以从OCRed pdf中看到，底部的12位数字不是OCRed。您可以通过选择文字来查看

使用的cmd：

 sudo tesseract tiffaadh.tiff ocr_from_cmd -l eng+tam --oem 1 --psm 3 --tessdata-dir ../tessdata --user-words tessdata/eng.user-words pdf

我尝试过的事情：

我尝试了不同的oem和psm，但结果相同。
我尝试仅将图像裁剪到文本部分。有效。的数字是OCRed。但我希望它可以处理未裁剪的图像
现在尝试用tesseract尝试uzn（区域）。我会在这里更新完成。

任何想法我怎么能得到OCRed数字？

0 个答案:

没有答案