如何从Python中的Pdf逐行提取文本?

时间:2017-11-18 06:47:41

标签: python

我没有得到任何解决方案我们有可用于使用Pypdf提取整个文本的选项,但我想逐行提取文本。任何帮助,将不胜感激。感谢

1 个答案:

答案 0 :(得分:0)

如果你正在使用Ubuntu,你可以这样做:

$ less <file_name>.pdf >op.txt

首先将pdf中的文本重定向到文本文件,然后使用Python代码逐行读取:

f=open("op.txt",'r')

for line in f:
    line=line.strip('\n')
    print(line)
f.close()