如何从 PDF 中删除文本并使用 Python 通过代码保存它们

时间:2021-03-08 11:46:13

标签: python pdf

我正在使用这个库 PYMUPDF (Documentation),它提供了使用 Python 处理 PDF 文档的各种功能。

我想要实现的目标:我想提取所有图像(我不能使用典型的方法,因为图像不是光栅。它们是带有机器可读文本的向量,因此我想显示仅包含图像的 PDF 页面)及其来自 PDF 文档的标签(即“图 1:XYZ”)。

我现在的位置:我能够缩小包含图像的页面,将 PDF 页面转换为图像并使用其标签重命名文件。

我希望是一种从页面中删除所有文本的方法,然后我可以只保存图像文件(和一些空白,应该没问题)

1 个答案:

答案 0 :(得分:0)

我对 python 一无所知,但使用 UniPDF 可以轻松完成这项工作。它们具有许多功能的内置代码,您可以根据需要自定义代码。在 https://github.com/unidoc/unipdf-examples 查看他们的示例。

我相信这会对您有很大帮助。