我正在寻找一个非常快速,轻量级的Python库来阅读PDF元数据。我不需要任何写入功能。如果仅加载元数据信息而不是整个文件,那会更好。
我意识到像Python这样的解释性语言并不是速度的最佳选择,但是由于这个解决方案需要跨平台并且与现有的Python应用程序一起工作,所以似乎没有多少选择。
我检查了pyPdf和其他一些库,但理想的是寻找更轻,更快的东西,适合一次处理成千上万的文件。
答案 0 :(得分:1)
Here's something I just put together,构建于Python PDFMiner库之上。您可以使用它提取“信息”和XMP类型元数据。
答案 1 :(得分:1)
pdfrw可以在没有读取 解析整个文件的情况下读取元数据。 (免责声明:我是pdfrw的作者。)例如:
>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
'/CreationDate': '(D:20061017081020Z)',
'/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
'/Creator': '(FrameMaker 7.2)',
'/ModDate': "(D:20061118211043-02'30')",
'/Author': '(Adobe Systems Incorporated)',
'/Subject': '(Adobe Portable Document Format \\(PDF\\))'}
答案 2 :(得分:0)
您是否看到this对类似问题的回答?它建议使用fopen
并手动解析元数据。如果您只需要元数据,则可以自己解析并尽可能快地完成。
答案 3 :(得分:0)
这有点像Raw,但这应该可以获得元数据
f = open('file.pdf', 'r')
pdfdata=f.read()
metas=re.findall('<</Metadata(.*?)>>',pdfdata)