我正在使用pdfminer3从一些pdf文件中解析文本。它通常会解析出我需要的文本,但是很多时候它只会将很多文本聚集在一起,从而使之后几乎无法对文本进行任何处理。 这是文件将被拉取的部分示例:
2012年奥巴马胜利基金* 2012年奥巴马胜利基金* 20122500.003500.003000.002000.005000.00WAGA624 12TH AVE E APT C403 JAMES WOOD COURT4117果园湖CT
我正在尝试从结果字符串中拉出一些地址,而pdfminer文本之间缺少空格正在拉动,使得这项任务几乎变得不可能。
这是我用来将pdf转换为文本的功能:
def convert(self, fname, pages=None):
if not pages:
pagenums = set()
else:
pagenums = set(pages)
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
interpreter = PDFPageInterpreter(manager, converter)
infile = open(fname, 'rb')
for page in PDFPage.get_pages(infile, pagenums):
interpreter.process_page(page)
infile.close()
converter.close()
text = output.getvalue()
output.close
return text