Question

我需要从像这样的小图片中提取单词：

我在命令行中使用带有西班牙语语言选项的tesseract，如下所示：

tesseract category.png -l spa -psm 7 category.txt

我认为该文本必须易于通过OCR解析，但该字词无法识别。我使用-l spa用于西班牙语和-psm 7，因为图片只有一行（无论如何，如果我不使用-psm参数，结果是相同的）。

结果如下：s…"…

我正在使用lang包这个版本：http://domasofan.spdns.eu/tesseract/（github中引用的官方来源）

Answer 1

在扫描低分辨率字符时，Tesseract似乎非常困难。

尝试扫描此图像。我将其分辨率提高了400％（我认为200％可用于扫描，但让我们尝试400％），做了大量模糊并达到了~140的阈值。尝试扫描这个，结果应该好多了，我希望这能满足你。如果您需要以编程方式执行此操作，请在评论中写下您不清楚的内容，我将为您提供一些其他信息。