Question

我正在尝试将Tesseract OCR v4.1.0-elag2019与TesseractBest培训数据结合使用，以识别来自a screenshot的字符（除了文本外，屏幕截图始终看起来相同）。我很难获得准确的结果（我认为是因为所有内容都很小且像素化）。

我尝试将图像比例放大（最高1000％），但似乎无法获得更准确的结果。任何人都有关于如何改善这种字体的识别的想法？

As you can see in the OCR data below there are a few errors marked between **ERROR**

Sell Offers:
**Kakoman** 1 625,000 625,000 2019—06—25, 09:13:40
....
Anonymous 2 629,699 1,259,398 2019—06—24, **16:31:44**

Buy Offers:
Anonymous 5 590,600 2,953,000 2019—06—25, **O8:15:21**

使用的Tesseract命令：

tesseract.exe output.tiff outputFile -l eng --psm 6 --dpi 300 --oem 1 -c tessedit_write_images=true -c load_system_dawg=false -c load_freq_dawg=false -c page_separator="[PAGE SEPARATOR]"

Tesseract OCR读取低分辨率/像素化字体

0 个答案: