以下代码已成功将大型PDF文件拆分为每页2页的较小PDF文件。但是,如果我查看其中一个文件,我会看到其他人的元文本。
这用于将PDF拆分为较小的:
import numpy as np
from PyPDF2 import PdfFileWriter, PdfFileReader
inputpdf = PdfFileReader(open(path+"multi.pdf", "rb"))
r=np.arange(inputpdf.numPages)
r2=[(r[i],r[i+1]) for i in range(0,len(r),2)]
for i in r2:
output = PdfFileWriter()
output.addPage(inputpdf.getPage(i[0]))
output.addPage(inputpdf.getPage(i[1]))
with open(path+"document-page %s.pdf" % i[0], "wb") as outputStream:
output.write(outputStream)
这用于获取其中一个结果文件的元文本(PyPDF2不会读取它):
import pdfx
path=path+'document-page 8.pdf'
pdf = pdfx.PDFx(path)
pdf.get_text()
我的问题是:
更新
pdf.get_references_count()
...显示20(应该只有2个)
提前致谢!