Question

我正在使用pdfminer3从一些pdf文件中解析文本。它通常会解析出我需要的文本，但是很多时候它只会将很多文本聚集在一起，从而使之后几乎无法对文本进行任何处理。这是文件将被拉取的部分示例：

2012年奥巴马胜利基金* 2012年奥巴马胜利基金* 20122500.003500.003000.002000.005000.00WAGA624 12TH AVE E APT C403 JAMES WOOD COURT4117果园湖CT

我正在尝试从结果字符串中拉出一些地址，而pdfminer文本之间缺少空格正在拉动，使得这项任务几乎变得不可能。

这是我用来将pdf转换为文本的功能：

def convert(self, fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = open(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close
    return text

PDFMiner将文本块压缩在一起

0 个答案: