在python中从pdf中提取流

时间:2009-01-09 19:47:58

标签: python pdf stream reportlab pypdf

如何从包含它的pdf文件中提取此流的一部分(名为BLABLABLA)?

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

或者,在其他世界中,如何从pdf流中提取子密钥?

我想使用一些python的库(比如pyPdf或ReportLab),但即使是一些C / C ++库也应该适合我。

任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

IIUC,PDF中的流只是一系列二进制数据。我想你想要提取一个对象的一部分。您想要标准对象,如图像还是文本?如果有一个真实的例子,那么给你的示例代码会容易得多。

这可能有助于您入门:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects