Python Splitting PDF从其他页面中留下元文本

时间:2017-11-13 20:04:41

标签: python pdf

以下代码已成功将大型PDF文件拆分为每页2页的较小PDF文件。但是,如果我查看其中一个文件,我会看到其他人的元文本。

这用于将PDF拆分为较小的:

import numpy as np
from PyPDF2 import PdfFileWriter, PdfFileReader
inputpdf = PdfFileReader(open(path+"multi.pdf", "rb"))
r=np.arange(inputpdf.numPages)
r2=[(r[i],r[i+1]) for i in range(0,len(r),2)]
for i in r2:
    output = PdfFileWriter()
    output.addPage(inputpdf.getPage(i[0]))
    output.addPage(inputpdf.getPage(i[1]))
    with open(path+"document-page %s.pdf" % i[0], "wb") as outputStream:
        output.write(outputStream)

这用于获取其中一个结果文件的元文本(PyPDF2不会读取它):

import pdfx
path=path+'document-page 8.pdf'
pdf = pdfx.PDFx(path)
pdf.get_text()

我的问题是:

  1. 这个过程非常慢,我想要的只是第一页右上角的10位数字。我可以以某种方式得到那部分吗?
  2. 查看结果时,它包含原始PDF文件中其他相邻页面的文本(这就是我称之为“元文本”的原因)。这是为什么?这可以解决吗?
  3. 更新

    pdf.get_references_count()
    

    ...显示20(应该只有2个)

    提前致谢!

0 个答案:

没有答案