Question

我已经通过许多解决方案从pdf文件中提取数据，但无法找到解决此特定问题的方法

我有一个pdf文件，其中包含以下数据格式

UPC             Product Description              Subcategory Name   Pkg type

018894300199    Big Y Mozzarella String  16oz       16oz Pkg Cheese    PKG

我需要使用python

为pdf文件的每一行提取UPC，产品描述和子名称

我能够使用下面的代码从pdf文件中提取文本

from PyPDF2 import PdfFileReader, PdfFileWriter



pdfFileObj = open('grocery2.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)


print(pdfReader.numPages)

pageObj = pdfReader.getPage(1)
pagecontent = pageObj.extractText()

我有超过500页的产品数据。什么是提取页面每行的UPC，产品描述和子名称的最有效方法？

Answer 1

由于它们以空格区分，并且您的字符串本身使用提取的文本具有空格可能不会太有用。我必须看到完整的pdf，知道这是否有效，但尝试：

From tabula import read_pdf

df = read_pdf("grocery2.pdf")

然后，您可以执行任何数据帧操作以提取不同的值即

df1 = df[['UPC', 'Product Description']]

如何使用python在pdf文件的每一行中提取文本

1 个答案: