从PDF提取特定的段落/文本-Python 3.7

时间:2018-12-18 01:22:28

标签: python pdf pdf-scraping

我有一个PDF文档,其中包含不同的部分,每个部分都有一些文本/数字。示例:

第1.1节 (此部分的文字包括产品信息,成本,数量,地址)

第1.2节 (本节文字)

我想从特定部分提取文本并将结果输入到Excel工作表中。

我有以下代码,但不确定如何进一步进行,我真的可以使用一些帮助!

html

我的部分结果包括:

from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator

fp = open('1234.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = PDFPage.get_pages(fp,check_extractable=False)

for page in pages:
    print('Processing next page...')
    interpreter.process_page(page)
    layout = device.get_result()
    for lobj in layout:
        if isinstance(lobj, LTTextBox):
            x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()
            print('At %r is text: %s' % ((x, y), text))

我只想要“ c部分”中的信息。

0 个答案:

没有答案