我使用pdfminer从许多PDF文件中提取文本。 某些pdf文件的结果文本文件很奇怪,每行只包含一个字符。 不是所有的PDF文件,而是其中的一些,我仍然无法找出原因以及哪些PDF文件会导致此问题。
这是我的代码:
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos = set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching,
check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
并且this处于导致此问题的PDF文件中。
修改
我尝试过tika,但是因为我使用的是Django,所以它给出了一个问题。
非常感谢
答案 0 :(得分:0)
使用tika
它可以为我提供更好的结果。
from tika import parser
def pdf_parser_tika(file_pointer):
parsed = parser.from_file(file_pointer)
return parsed["content"]