在Python中提高专利图像的Tesseract OCR准确度

时间:2017-01-27 16:08:23

标签: python opencv ocr

我正在使用pytesseract进行OCR专利图像,将这些旧专利转化为机器可读文本。我使用的示例图像是here。输出为here。基本上我做得相当简单。我的相关代码是:

for each4 in listoffiles:#in list of files get all text into text using tesseract    
        im = Image.open(path2+'\\'+each4)
        text = text + pytesseract.image_to_string(im)

我已经尝试了一些修改配置文件,但我发现的唯一改进是白名单[a-zA-Z0-9,。]。我还没有修改代码以考虑配置文件,因为性能尚未达到我的标准。虽然有很多选择我觉得错过了很多,所以关于配置文件修改的任何其他建议都会有所帮助。

我从其他建议中看到使用OpenCV,ndimage和skimage for python。我对计算机视觉缺乏经验,所以我不知道从哪些方面开始我的问题和指导将不胜感激。

我正在考虑的其他选项包括使用Tesseract 4.0并在专利上自行培训OCR /在字典中添加特定的专利相关字词。不知道我应该优先考虑什么,但如果你有建议,幸运的是我拥有阅读自述文件的罕见能力(实际上并非完全正确,但我会尽我所能)。

0 个答案:

没有答案