Question

我有一个充满引号的PDF：

https://www.pdf-archive.com/2017/03/22/test/

我可以使用以下代码在python中提取文本：

import PyPDF2

pdfFileObj = open('example.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
print (pageObj.extractText())

这会将所有引号作为一个段落返回。是否有可能分裂＆＃39;水平分隔符的pdf并将其拆分成引号？

Answer 1

如果您只想从pdf文本中提取引号，可以使用import PyPDF2 import re pdfFileObj = open('test.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) text = str(pageObj.extractText()) quotes = re.findall(r'"[^"]*"',text) for quote in quotes: print quote print查找所有引号。

quotes = re.findall(r'"[^"]*"',text)
print quotes

或只是

Make

Answer 2

我找不到通过水平分隔符拆分它的方法，但我设法以另一种方式进行：

import PyPDF2

quotes = []

pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5

Answer 3

import pdfplumber

pdf = pdfplumber.open(file_path)

p0 = pdf.pages[0]

text = p0.extract_text()

text

在Python中从PDF中提取文本

3 个答案: