python - 如何从 PDF 中删除文本并使用 Python 通过代码保存它们

时间：2021-03-08 11:46:13

标签： python pdf

我正在使用这个库 PYMUPDF (Documentation)，它提供了使用 Python 处理 PDF 文档的各种功能。

我想要实现的目标：我想提取所有图像（我不能使用典型的方法，因为图像不是光栅。它们是带有机器可读文本的向量，因此我想显示仅包含图像的 PDF 页面）及其来自 PDF 文档的标签（即“图 1：XYZ”）。

我现在的位置：我能够缩小包含图像的页面，将 PDF 页面转换为图像并使用其标签重命名文件。

我希望是一种从页面中删除所有文本的方法，然后我可以只保存图像文件（和一些空白，应该没问题）

答案 0 :(得分：0)

我对 python 一无所知，但使用 UniPDF 可以轻松完成这项工作。它们具有许多功能的内置代码，您可以根据需要自定义代码。在 https://github.com/unidoc/unipdf-examples 查看他们的示例。

我相信这会对您有很大帮助。