PDFMiner将文本块压缩在一起

时间:2019-02-10 06:40:18

标签: python pdfminer

我正在使用pdfminer3从一些pdf文件中解析文本。它通常会解析出我需要的文本,但是很多时候它只会将很多文本聚集在一起,从而使之后几乎无法对文本进行任何处理。 这是文件将被拉取的部分示例:

2012年奥巴马胜利基金* 2012年奥巴马胜利基金* 20122500.003500.003000.002000.005000.00WAGA624 12TH AVE E APT C403 JAMES WOOD COURT4117果园湖CT

我正在尝试从结果字符串中拉出一些地址,而pdfminer文本之间缺少空格正在拉动,使得这项任务几乎变得不可能。

这是我用来将pdf转换为文本的功能:

def convert(self, fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = open(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close
    return text

0 个答案:

没有答案