tesseract在此图像中无法识别此单词是否正常?

时间:2016-04-17 14:12:39

标签: ocr tesseract

我需要从像这样的小图片中提取单词:

enter image description here

我在命令行中使用带有西班牙语语言选项的tesseract,如下所示:

tesseract category.png -l spa -psm 7 category.txt

我认为该文本必须易于通过OCR解析,但该字词无法识别。我使用-l spa用于西班牙语和-psm 7,因为图片只有一行(无论如何,如果我不使用-psm参数,结果是相同的)。

结果如下:s…"…

我正在使用lang包这个版本:http://domasofan.spdns.eu/tesseract/(github中引用的官方来源)

1 个答案:

答案 0 :(得分:1)

在扫描低分辨率字符时,Tesseract似乎非常困难。

enter image description here

尝试扫描此图像。我将其分辨率提高了400%(我认为200%可用于扫描,但让我们尝试400%),做了大量模糊并达到了~140的阈值。尝试扫描这个,结果应该好多了,我希望这能满足你。如果您需要以编程方式执行此操作,请在评论中写下您不清楚的内容,我将为您提供一些其他信息。