python pdf逐行

时间:2012-04-03 21:17:23

标签: python pdf

如何在python中逐行获取pdf文件的内容?我在stackoverflow中搜索过但找不到任何好的答案。注意:pyPdf给出断言错误,如果可能的话,给出slate和pdfminer。

1 个答案:

答案 0 :(得分:0)

从命令行:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

然后,您可以只使用它生成的文本文件并使用for line in file:

如果你想要高效,你将不得不改变pdf2txt.py,并且outfp是一个python iostring,这将避免制作文件然后从中读取。