在OCRmypdf中扩展tesseract词典

时间:2019-10-07 12:30:01

标签: python ocr tesseract

我需要为我正在处理的项目创建三明治PDF。为此,我正在使用OCRmypdf。

不幸的是,我使用的PDF通常是多语言的,并且具有相当多的技术术语,这些术语未包含在标准tesseract词典中。

OCRmypdf建议:

  

您可以使用配置文件覆盖tesseract的默认控制参数。

另一方面,我确实有很多常用词,例如“音量”,我不想手动添加。

我的问题是,如何仅针对一个项目扩展tesseract的默认参数?

非常感谢您。

0 个答案:

没有答案