在从PDF文件中提取文本期间,是否可以将contents of footers and headers of a page
从pdf文件中排除。因为这些内容最不重要,而且几乎是多余的。
注意:为了从.pdf文件中提取文本,我在python版本= 3.7上使用PyPDF2软件包。
如何在PyPDF2中排除页脚和页眉的内容。任何帮助表示赞赏。
代码段如下:
import PyPDF2
def Read(startPage, endPage):
global text
text = []
cleanText = " "
pdfFileObj = open('C:\\Users\\SIBA\\Desktop\\req\\req\\0000 - gamma j.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
print(num_pages)
while (startPage <= endPage):
pageObj = pdfReader.getPage(startPage)
text += pageObj.extractText()
startPage += 1
pdfFileObj.close()
for myWord in text:
if myWord != '\n':
cleanText += myWord
text = cleanText.strip().split()
print(text)
Read(1, 1)