我从源头编译了tesseract 5.0.0-alpha, 并尝试了所有不同的页面细分模式。 我事先知道实际的字体是用 DejaVu Sans Mono 字体写的, 因此,我使用这种字体(最大页面数= 600)训练了模型,并最终生成了模型。
但是由于某种原因,tesseract错过了。例如,下面是经过预处理的简单图像:
但是我一直输入错误的值,字母l被替换为数字1。 并且数字6到字母l之间的实际间隔将被忽略/消失。 有人可以给我一些建议吗?
谢谢大家, 我非常感谢您的帮助!
答案 0 :(得分:0)
我正在将Ubuntu 18.04与tesseract版本5配合使用。我使用以下命令并获得了正确的结果。也许您可以尝试相同的命令。
tesseract HfUmN.jpg stdout -l eng --oem 3 --psm 7 -c tessedit_char_whitelist="abcdefghijklmnopqrstuvwxyz0123456789=[], "
Warning: Invalid resolution 0 dpi. Using 70 instead.
6 l1 = [1, 2, 4, 5]
tesseract --version
tesseract 5.0.0-alpha-647-g4a00
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
Found OpenMP 201511
Found libarchive 3.2.2 zlib/1.2.11 liblzma/5.2.2 bz2lib/1.0.6 liblz4/1.7.1