Question

Python Noob问题。我正在尝试过滤PDF文件＆＃34; FILEIN.pdf＆＃34;对于包含单词＆＃34; TEXT＆＃34;的页面并将这些页面复制到一个新文件＆＃34; FILEOUT.pdf＆＃34;。我做了一些测试并使用了TEXT的值，我知道这些文件在FILEIN中，看看这些页面是否最终出现在FILEOUT中，但是他们不知道，我在if语句中做错了什么导致这些页面不显示在文件？感谢。

import PyPDF2
pdfFileObj = open('FILEIN.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pdfWriter = PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader.numPages):
pageObj = pdfReader.getPage(pageNum)
    TEST = pageObj.extractText()
    if TEST.find("TEXT") == 1:
        pdfWriter.addPage(pageObj)


pdfOutput = open('FILEOUT.pdf', 'wb')
pdfWriter.write(pdfOutput)
pdfOutput.close()

Answer 1

.find（）返回找到的子字符串的索引，如果找不到则返回-1。它可能会返回几乎任何正数（和零）。所以条件可以改写为

if TEST.find("TEXT") != -1:

Python根据字符串选择PDF页面并将其复制到新文件

1 个答案: