Question

我从源头编译了tesseract 5.0.0-alpha，并尝试了所有不同的页面细分模式。我事先知道实际的字体是用 DejaVu Sans Mono 字体写的，因此，我使用这种字体（最大页面数= 600）训练了模型，并最终生成了模型。

但是由于某种原因，tesseract错过了。例如，下面是经过预处理的简单图像：

但是我一直输入错误的值，字母l被替换为数字1。并且数字6到字母l之间的实际间隔将被忽略/消失。有人可以给我一些建议吗？

谢谢大家，我非常感谢您的帮助！

Answer 1

我正在将Ubuntu 18.04与tesseract版本5配合使用。我使用以下命令并获得了正确的结果。也许您可以尝试相同的命令。

tesseract HfUmN.jpg stdout -l eng --oem 3 --psm 7 -c tessedit_char_whitelist="abcdefghijklmnopqrstuvwxyz0123456789=[], "
Warning: Invalid resolution 0 dpi. Using 70 instead.
6 l1 = [1, 2, 4, 5]

tesseract --version
tesseract 5.0.0-alpha-647-g4a00
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found OpenMP 201511
 Found libarchive 3.2.2 zlib/1.2.11 liblzma/5.2.2 bz2lib/1.0.6 liblz4/1.7.1

如何在清晰图像上改善tesseract ocr结果？

1 个答案: