在提取文本时是否排除PDF文件页面的页眉和页脚内容?

时间:2018-08-27 12:53:22

标签: python-3.x pdf text nlp pypdf2

在从PDF文件中提取文本期间,是否可以将contents of footers and headers of a page从pdf文件中排除。因为这些内容最不重要,而且几乎是多余的。

注意:为了从.pdf文件中提取文本,我在python版本= 3.7上使用PyPDF2软件包。

如何在PyPDF2中排除页脚和页眉的内容。任何帮助表示赞赏。

代码段如下:

import PyPDF2

def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('C:\\Users\\SIBA\\Desktop\\req\\req\\0000 - gamma j.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
           cleanText += myWord
    text = cleanText.strip().split()
    print(text)

Read(1, 1)

0 个答案:

没有答案