如何使用python在pdf文件的每一行中提取文本

时间:2017-11-24 00:28:00

标签: python pdf

我已经通过许多解决方案从pdf文件中提取数据,但无法找到解决此特定问题的方法

我有一个pdf文件,其中包含以下数据格式

UPC             Product Description              Subcategory Name   Pkg type

018894300199    Big Y Mozzarella String  16oz       16oz Pkg Cheese    PKG 

enter image description here

我需要使用python

为pdf文件的每一行提取UPC,产品描述和子名称

我能够使用下面的代码从pdf文件中提取文本

from PyPDF2 import PdfFileReader, PdfFileWriter



pdfFileObj = open('grocery2.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)


print(pdfReader.numPages)

pageObj = pdfReader.getPage(1)
pagecontent = pageObj.extractText()

我有超过500页的产品数据。什么是提取页面每行的UPC,产品描述和子名称的最有效方法?

1 个答案:

答案 0 :(得分:0)

由于它们以空格区分,并且您的字符串本身使用提取的文本具有空格可能不会太有用。我必须看到完整的pdf,知道这是否有效,但尝试:

From tabula import read_pdf

df = read_pdf("grocery2.pdf")

然后,您可以执行任何数据帧操作以提取不同的值

df1 = df[['UPC', 'Product Description']]