如何使用PyPDF2从.pdf文件中提取所有文本并将其作为STRING返回?

时间:2018-04-11 03:01:14

标签: python io pypdf2

我有一个页面.pdf document,我想提取字符串:

' \ n \ n \ n \ n(订单列表:583美国)\ n 2017年12月4日,星期五\ n正在处理案件\ n17A550 TRUMP,美国总统,美国东部时间。 V. HAWAII,ET AL。 \ n提交给肯尼迪大法官并由\ nhim提交给法院的中止申请获得批准,并且地区法院于2017年10月20日发出的初步禁令令停止处理政府的上诉。美国\ n第九巡回上诉的上诉和处置\ n'Government™申请担保书的请求,如果是这样的令状。如果要求提交证书并且法院否认该证明,则该命令将自动终止。如果法院对申请担保书提出申请,则在法院作出判决时,该命令即告终止。 \ n鉴于其决定考虑加快案件的速度,我们预计上诉法院将通过适当的调度作出决定。 \ n Justice Ginsburg和Justice Sotomayor否认了\ napplication。 \ n'

到目前为止,我写过:

def text_from_pdf_url(url):
    text = ''
    data = requests.get(url).content
    data_as_file = io.BytesIO(data)
    reader = PyPDF2.PdfFileReader(data_as_file)

我在最后一步真的输了,请帮忙!

1 个答案:

答案 0 :(得分:0)

您想要extractText()

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf', 'rb')
p = reader.getPage(0)
text = p.extractText()
print text

请注意extractText()并非总是可靠,并且对于某些PDF文件可能效果不佳,具体取决于所使用的生成器。