在Python中从PDF中提取文本

时间:2017-03-22 21:16:50

标签: python pdf pypdf2

我有一个充满引号的PDF:

https://www.pdf-archive.com/2017/03/22/test/

我可以使用以下代码在python中提取文本:

import PyPDF2

pdfFileObj = open('example.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
print (pageObj.extractText())

这会将所有引号作为一个段落返回。是否有可能分裂'水平分隔符的pdf并将其拆分成引号?

3 个答案:

答案 0 :(得分:1)

如果您只想从pdf文本中提取引号,可以使用import PyPDF2 import re pdfFileObj = open('test.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) text = str(pageObj.extractText()) quotes = re.findall(r'"[^"]*"',text) for quote in quotes: print quote print 查找所有引号。

quotes = re.findall(r'"[^"]*"',text)
print quotes

或只是

Make

答案 1 :(得分:0)

我找不到通过水平分隔符拆分它的方法,但我设法以另一种方式进行:

import PyPDF2

quotes = []

pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5

答案 2 :(得分:0)

import pdfplumber

pdf = pdfplumber.open(file_path)

p0 = pdf.pages[0]

text = p0.extract_text()

text