Question

我有一个页面.pdf document，我想提取字符串：

＆＃39; \ n \ n \ n \ n（订单列表：583美国）\ n 2017年12月4日，星期五\ n正在处理案件\ n17A550 TRUMP，美国总统，美国东部时间。 V. HAWAII，ET AL。 \ n提交给肯尼迪大法官并由\ nhim提交给法院的中止申请获得批准，并且地区法院于2017年10月20日发出的初步禁令令停止处理政府的上诉。美国\ n第九巡回上诉的上诉和处置\ n'Government™申请担保书的请求，如果是这样的令状。如果要求提交证书并且法院否认该证明，则该命令将自动终止。如果法院对申请担保书提出申请，则在法院作出判决时，该命令即告终止。 \ n鉴于其决定考虑加快案件的速度，我们预计上诉法院将通过适当的调度作出决定。 \ n Justice Ginsburg和Justice Sotomayor否认了\ napplication。 \ n＆＃39;

到目前为止，我写过：

def text_from_pdf_url(url):
    text = ''
    data = requests.get(url).content
    data_as_file = io.BytesIO(data)
    reader = PyPDF2.PdfFileReader(data_as_file)

我在最后一步真的输了，请帮忙！

Answer 1

您想要extractText()：

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf', 'rb')
p = reader.getPage(0)
text = p.extractText()
print text

请注意extractText()并非总是可靠，并且对于某些PDF文件可能效果不佳，具体取决于所使用的生成器。

如何使用PyPDF2从.pdf文件中提取所有文本并将其作为STRING返回？

1 个答案: