我正在使用pytesseract进行OCR专利图像,将这些旧专利转化为机器可读文本。我使用的示例图像是here。输出为here。基本上我做得相当简单。我的相关代码是:
for each4 in listoffiles:#in list of files get all text into text using tesseract
im = Image.open(path2+'\\'+each4)
text = text + pytesseract.image_to_string(im)
我已经尝试了一些修改配置文件,但我发现的唯一改进是白名单[a-zA-Z0-9,。]。我还没有修改代码以考虑配置文件,因为性能尚未达到我的标准。虽然有很多选择我觉得错过了很多,所以关于配置文件修改的任何其他建议都会有所帮助。
我从其他建议中看到使用OpenCV,ndimage和skimage for python。我对计算机视觉缺乏经验,所以我不知道从哪些方面开始我的问题和指导将不胜感激。
我正在考虑的其他选项包括使用Tesseract 4.0并在专利上自行培训OCR /在字典中添加特定的专利相关字词。不知道我应该优先考虑什么,但如果你有建议,幸运的是我拥有阅读自述文件的罕见能力(实际上并非完全正确,但我会尽我所能)。