我有一份文件(pdf),其中包含一些印地语的文字。我使用http://example.com/notify/将其转换为.tiff图像,命令为:
magick convert -density 300 filename.pdf -depth 8 test.tiff
然后,我使用tesseract
在.tiff
图片上执行OCR:
C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3
但结果根本不适合。我可以选择改善结果:
鉴于.pdf文件中文本的清晰度,我倾向于假设它不需要任何预处理。但是,由于文本在列中,因此可能需要一些分段。我不确定应该采取什么措施,而是在做任何事之前想到了。
那么,为了让Tesseract表现得更好,应该对给定的图像做些什么呢?
该文件类似于: ImageMagick