我正在尝试将Tesseract OCR v4.1.0-elag2019与TesseractBest培训数据结合使用,以识别来自a screenshot的字符(除了文本外,屏幕截图始终看起来相同)。我很难获得准确的结果(我认为是因为所有内容都很小且像素化)。
我尝试将图像比例放大(最高1000%),但似乎无法获得更准确的结果。任何人都有关于如何改善这种字体的识别的想法?
As you can see in the OCR data below there are a few errors marked between **ERROR**
Sell Offers:
**Kakoman** 1 625,000 625,000 2019—06—25, 09:13:40
....
Anonymous 2 629,699 1,259,398 2019—06—24, **16:31:44**
Buy Offers:
Anonymous 5 590,600 2,953,000 2019—06—25, **O8:15:21**
使用的Tesseract命令:
tesseract.exe output.tiff outputFile -l eng --psm 6 --dpi 300 --oem 1 -c tessedit_write_images=true -c load_system_dawg=false -c load_freq_dawg=false -c page_separator="[PAGE SEPARATOR]"