我正在用python编写一个程序,该程序可以读取pdf文档,从文档中提取文本并使用提取的文本重命名该文档。首先,扫描的pdf文档不可搜索。我想在python上将pdf转换为可搜索的pdf,而不是使用Google文档Cisdem pdf转换器。
我已阅读有关ocrmypdf模块的信息,该模块可用于解决此问题。但是,由于我的知识有限,我不知道如何编写代码。
我希望输出将扫描的pdf转换为可搜索的pdf。
答案 0 :(得分:0)
我建议您继续学习该伴奏,这可能会花费您一些时间,但这应该是值得的。
我不确定您到底想要什么。在我的项目中,以下设置在大多数情况下都能正常工作。
import ocrmypdf , tesseract
def ocr(file_path, save_path):
ocrmypdf.ocr(file_path, save_path, rotate_pages=True,
remove_background=True,language="en", deskew=True, force_ocr=True)
答案 1 :(得分:0)
这可以分两步完成
创建 Python OCR Python 函数 导入ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)
调用和使用一个函数。 ocr("input.pdf","output.pdf")
谢谢,有问题请追问。