我有一个页面.pdf document,我想提取字符串:
' \ n \ n \ n \ n(订单列表:583美国)\ n 2017年12月4日,星期五\ n正在处理案件\ n17A550 TRUMP,美国总统,美国东部时间。 V. HAWAII,ET AL。 \ n提交给肯尼迪大法官并由\ nhim提交给法院的中止申请获得批准,并且地区法院于2017年10月20日发出的初步禁令令停止处理政府的上诉。美国\ n第九巡回上诉的上诉和处置\ n'Government™申请担保书的请求,如果是这样的令状。如果要求提交证书并且法院否认该证明,则该命令将自动终止。如果法院对申请担保书提出申请,则在法院作出判决时,该命令即告终止。 \ n鉴于其决定考虑加快案件的速度,我们预计上诉法院将通过适当的调度作出决定。 \ n Justice Ginsburg和Justice Sotomayor否认了\ napplication。 \ n'
到目前为止,我写过:
def text_from_pdf_url(url):
text = ''
data = requests.get(url).content
data_as_file = io.BytesIO(data)
reader = PyPDF2.PdfFileReader(data_as_file)
我在最后一步真的输了,请帮忙!
答案 0 :(得分:0)
您想要extractText()
:
import PyPDF2
reader = PyPDF2.PdfFileReader('test.pdf', 'rb')
p = reader.getPage(0)
text = p.extractText()
print text
请注意extractText()
并非总是可靠,并且对于某些PDF文件可能效果不佳,具体取决于所使用的生成器。