Question

我正在使用pytesseract进行OCR专利图像，将这些旧专利转化为机器可读文本。我使用的示例图像是here。输出为here。基本上我做得相当简单。我的相关代码是：

for each4 in listoffiles:#in list of files get all text into text using tesseract    
        im = Image.open(path2+'\\'+each4)
        text = text + pytesseract.image_to_string(im)

我已经尝试了一些修改配置文件，但我发现的唯一改进是白名单[a-zA-Z0-9，。]。我还没有修改代码以考虑配置文件，因为性能尚未达到我的标准。虽然有很多选择我觉得错过了很多，所以关于配置文件修改的任何其他建议都会有所帮助。

我从其他建议中看到使用OpenCV，ndimage和skimage for python。我对计算机视觉缺乏经验，所以我不知道从哪些方面开始我的问题和指导将不胜感激。

我正在考虑的其他选项包括使用Tesseract 4.0并在专利上自行培训OCR /在字典中添加特定的专利相关字词。不知道我应该优先考虑什么，但如果你有建议，幸运的是我拥有阅读自述文件的罕见能力（实际上并非完全正确，但我会尽我所能）。

在Python中提高专利图像的Tesseract OCR准确度

0 个答案: