我有一个充满引号的PDF:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码在python中提取文本:
import PyPDF2
pdfFileObj = open('example.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print (pageObj.extractText())
这会将所有引号作为一个段落返回。是否有可能分裂'水平分隔符的pdf并将其拆分成引号?
答案 0 :(得分:1)
如果您只想从pdf文本中提取引号,可以使用import PyPDF2
import re
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
text = str(pageObj.extractText())
quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
print quote
print
查找所有引号。
quotes = re.findall(r'"[^"]*"',text)
print quotes
或只是
Make
答案 1 :(得分:0)
我找不到通过水平分隔符拆分它的方法,但我设法以另一种方式进行:
import PyPDF2
quotes = []
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5
答案 2 :(得分:0)
import pdfplumber
pdf = pdfplumber.open(file_path)
p0 = pdf.pages[0]
text = p0.extract_text()
text