我需要从包含多组pdf的pdf中提取一组页面。此类连词以提交来区分。 pdf内有以下信息... 1-套3件 页:1 /续 页:2 /续 页面:3 /最后
2-一组2批 页:1 /续 页面:2 /最后
2-1套运送 第1/1页
这是为了加快我的服务,因为我必须手动分离这些集合。
from PyPDF2 import PdfFileWriter, PdfFileReader
import re
output = PdfFileWriter()
input1 = PdfFileReader(open("pdf_teste.PDF", "rb"))
totalPages = input1.getNumPages()
print ("total pages to process:" +str(totalPages))
for i in range(totalPages):
p = i
print ("processing page %s" %str(i))
output.addPage(input1.getPage(p))
p = input1.getPage(p).extractText()#extract text to search for identifier
pr = re.search("Diretor", p)#search for the identifier; to be replaced with a list
#if there's a match, do work
if pr:
outputStream = open("test"+str(i)+".pdf", "wb")
output.write(outputStream)
outputStream.close()
print ('match on page %s' %str(i))
print ('\n')
这段代码几乎可以满足我的要求。 他划分了第一组,但从第二组开始重复第一组和第二组。但是我想要每套PDF。