标签: python ocr tesseract
我需要为我正在处理的项目创建三明治PDF。为此,我正在使用OCRmypdf。
不幸的是,我使用的PDF通常是多语言的,并且具有相当多的技术术语,这些术语未包含在标准tesseract词典中。
OCRmypdf建议:
您可以使用配置文件覆盖tesseract的默认控制参数。
另一方面,我确实有很多常用词,例如“音量”,我不想手动添加。
我的问题是,如何仅针对一个项目扩展tesseract的默认参数?
非常感谢您。