如何在清晰图像上改善tesseract ocr结果?

时间:2020-04-18 14:37:29

标签: ocr tesseract

我从源头编译了tesseract 5.0.0-alpha, 并尝试了所有不同的页面细分模式。 我事先知道实际的字体是用 DejaVu Sans Mono 字体写的, 因此,我使用这种字体(最大页面数= 600)训练了模型,并最终生成了模型。

但是由于某种原因,tesseract错过了。例如,下面是经过预处理的简单图像:

enter image description here

但是我一直输入错误的值,字母l被替换为数字1。 并且数字6到字母l之间的实际间隔将被忽略/消失。 有人可以给我一些建议吗?

谢谢大家, 我非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

我正在将Ubuntu 18.04与tesseract版本5配合使用。我使用以下命令并获得了正确的结果。也许您可以尝试相同的命令。

tesseract HfUmN.jpg stdout -l eng --oem 3 --psm 7 -c tessedit_char_whitelist="abcdefghijklmnopqrstuvwxyz0123456789=[], "
Warning: Invalid resolution 0 dpi. Using 70 instead.
6 l1 = [1, 2, 4, 5]
tesseract --version
tesseract 5.0.0-alpha-647-g4a00
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found OpenMP 201511
 Found libarchive 3.2.2 zlib/1.2.11 liblzma/5.2.2 bz2lib/1.0.6 liblz4/1.7.1