快速Python PDF元数据阅读器

时间:2010-12-09 22:34:13

标签: python pdf metadata

我正在寻找一个非常快速,轻量级的Python库来阅读PDF元数据。我不需要任何写入功能。如果仅加载元数据信息而不是整个文件,那会更好。

我意识到像Python这样的解释性语言并不是速度的最佳选择,但是由于这个解决方案需要跨平台并且与现有的Python应用程序一起工作,所以似乎没有多少选择。

我检查了pyPdf和其他一些库,但理想的是寻找更轻,更快的东西,适合一次处理成千上万的文件。

4 个答案:

答案 0 :(得分:1)

Here's something I just put together,构建于Python PDFMiner库之上。您可以使用它提取“信息”和XMP类型元数据。

答案 1 :(得分:1)

pdfrw可以在没有读取 解析整个文件的情况下读取元数据。 (免责声明:我是pdfrw的作者。)例如:

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}

答案 2 :(得分:0)

您是否看到this对类似问题的回答?它建议使用fopen并手动解析元数据。如果您只需要元数据,则可以自己解析并尽可能快地完成。

答案 3 :(得分:0)

这有点像Raw,但这应该可以获得元数据

f = open('file.pdf', 'r')
pdfdata=f.read()
metas=re.findall('<</Metadata(.*?)>>',pdfdata)