如何在Python(Mac)中将扫描的PDF转换为可搜索的PDF?例如OCRMYPDF模块

时间:2019-08-07 16:34:16

标签: python python-3.x

我正在用python编写一个程序,该程序可以读取pdf文档,从文档中提取文本并使用提取的文本重命名该文档。首先,扫描的pdf文档不可搜索。我想在python上将pdf转换为可搜索的pdf,而不是使用Google文档Cisdem pdf转换器。

我已阅读有关ocrmypdf模块的信息,该模块可用于解决此问题。但是,由于我的知识有限,我不知道如何编写代码。

我希望输出将扫描的pdf转换为可搜索的pdf。

2 个答案:

答案 0 :(得分:0)

我建议您继续学习该伴奏,这可能会花费您一些时间,但这应该是值得的。

我不确定您到底想要什么。在我的项目中,以下设置在大多数情况下都能正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

答案 1 :(得分:0)

这可以分两步完成

  1. 创建 Python OCR Python 函数 导入ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)

  2. 调用和使用一个函数。 ocr("input.pdf","output.pdf")

谢谢,有问题请追问。