应用错误收集

如何在Python（Mac）中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

时间：2019-08-07 16:34:16

标签： python python-3.x

我正在用python编写一个程序，该程序可以读取pdf文档，从文档中提取文本并使用提取的文本重命名该文档。首先，扫描的pdf文档不可搜索。我想在python上将pdf转换为可搜索的pdf，而不是使用Google文档Cisdem pdf转换器。

我已阅读有关ocrmypdf模块的信息，该模块可用于解决此问题。但是，由于我的知识有限，我不知道如何编写代码。

我希望输出将扫描的pdf转换为可搜索的pdf。

2 个答案:

答案 0 :(得分：0)

我建议您继续学习该伴奏，这可能会花费您一些时间，但这应该是值得的。

我不确定您到底想要什么。在我的项目中，以下设置在大多数情况下都能正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

答案 1 :(得分：0)

这可以分两步完成

创建 Python OCR Python 函数导入ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)
调用和使用一个函数。 ocr("input.pdf","output.pdf")

谢谢，有问题请追问。