Python Noob问题。 我正在尝试过滤PDF文件" FILEIN.pdf"对于包含单词" TEXT"的页面并将这些页面复制到一个新文件" FILEOUT.pdf"。 我做了一些测试并使用了TEXT的值,我知道这些文件在FILEIN中,看看这些页面是否最终出现在FILEOUT中,但是他们不知道,我在if语句中做错了什么导致这些页面不显示在文件? 感谢。
import PyPDF2
pdfFileObj = open('FILEIN.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pdfWriter = PyPDF2.PdfFileWriter()
for pageNum in range(pdfReader.numPages):
pageObj = pdfReader.getPage(pageNum)
TEST = pageObj.extractText()
if TEST.find("TEXT") == 1:
pdfWriter.addPage(pageObj)
pdfOutput = open('FILEOUT.pdf', 'wb')
pdfWriter.write(pdfOutput)
pdfOutput.close()
答案 0 :(得分:2)
.find()返回找到的子字符串的索引,如果找不到则返回-1。它可能会返回几乎任何正数(和零)。所以条件可以改写为
if TEST.find("TEXT") != -1: