通过Tesseract改善结果

时间:2018-05-28 09:46:43

标签: image image-processing imagemagick ocr tesseract

我有一份文件(pdf),其中包含一些印地语的文字。我使用http://example.com/notify/将其转换为.tiff图像,命令为:

magick convert -density 300 filename.pdf -depth 8 test.tiff

然后,我使用tesseract.tiff图片上执行OCR:

C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3

但结果根本不适合。我可以选择改善结果:

  1. 预处理图像。
  2. 针对特定字体训练Tesseract。
  3. 鉴于.pdf文件中文本的清晰度,我倾向于假设它不需要任何预处理。但是,由于文本在列中,因此可能需要一些分段。我不确定应该采取什么措施,而是在做任何事之前想到了。

    那么,为了让Tesseract表现得更好,应该对给定的图像做些什么呢?

    该文件类似于: ImageMagick

0 个答案:

没有答案