OCR之前(tiff图像):
https://drive.google.com/open?id=1TBkhVx9sOtk8hXV-rcMSDE_DKnwK1V8o
使用tesseract进行OCR后(pdf):
https://drive.google.com/open?id=1V_fPSassUE6q9W7i7ACKtjMXrftv01r9
您可以从OCRed pdf中看到,底部的12位数字不是OCRed。您可以通过选择文字来查看
使用的cmd:
sudo tesseract tiffaadh.tiff ocr_from_cmd -l eng+tam --oem 1 --psm 3 --tessdata-dir ../tessdata --user-words tessdata/eng.user-words pdf
我尝试过的事情:
oem
和psm
,但结果相同。任何想法我怎么能得到OCRed数字?