Question

我正在寻找一个非常快速，轻量级的Python库来阅读PDF元数据。我不需要任何写入功能。如果仅加载元数据信息而不是整个文件，那会更好。

我意识到像Python这样的解释性语言并不是速度的最佳选择，但是由于这个解决方案需要跨平台并且与现有的Python应用程序一起工作，所以似乎没有多少选择。

我检查了pyPdf和其他一些库，但理想的是寻找更轻，更快的东西，适合一次处理成千上万的文件。

Answer 1

Here's something I just put together，构建于Python PDFMiner库之上。您可以使用它提取“信息”和XMP类型元数据。

Answer 2

pdfrw可以在没有读取解析整个文件的情况下读取元数据。（免责声明：我是pdfrw的作者。）例如：

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}

Answer 3

您是否看到this对类似问题的回答？它建议使用fopen并手动解析元数据。如果您只需要元数据，则可以自己解析并尽可能快地完成。

Answer 4

这有点像Raw，但这应该可以获得元数据

f = open('file.pdf', 'r')
pdfdata=f.read()
metas=re.findall('<</Metadata(.*?)>>',pdfdata)

快速Python PDF元数据阅读器

4 个答案: