Python根据字符串选择PDF页面并将其复制到新文件

时间:2016-02-07 19:41:33

标签: python pdf

Python Noob问题。 我正在尝试过滤PDF文件" FILEIN.pdf"对于包含单词" TEXT"的页面并将这些页面复制到一个新文件" FILEOUT.pdf"。 我做了一些测试并使用了TEXT的值,我知道这些文件在FILEIN中,看看这些页面是否最终出现在FILEOUT中,但是他们不知道,我在if语句中做错了什么导致这些页面不显示在文件? 感谢。

import PyPDF2
pdfFileObj = open('FILEIN.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pdfWriter = PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader.numPages):
pageObj = pdfReader.getPage(pageNum)
    TEST = pageObj.extractText()
    if TEST.find("TEXT") == 1:
        pdfWriter.addPage(pageObj)


pdfOutput = open('FILEOUT.pdf', 'wb')
pdfWriter.write(pdfOutput)
pdfOutput.close()

1 个答案:

答案 0 :(得分:2)

.find()返回找到的子字符串的索引,如果找不到则返回-1。它可能会返回几乎任何正数(和零)。所以条件可以改写为

if TEST.find("TEXT") != -1: