我已经通过许多解决方案从pdf文件中提取数据,但无法找到解决此特定问题的方法
我有一个pdf文件,其中包含以下数据格式
UPC Product Description Subcategory Name Pkg type
018894300199 Big Y Mozzarella String 16oz 16oz Pkg Cheese PKG
我需要使用python
为pdf文件的每一行提取UPC,产品描述和子名称我能够使用下面的代码从pdf文件中提取文本
from PyPDF2 import PdfFileReader, PdfFileWriter
pdfFileObj = open('grocery2.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(1)
pagecontent = pageObj.extractText()
我有超过500页的产品数据。什么是提取页面每行的UPC,产品描述和子名称的最有效方法?
答案 0 :(得分:0)
由于它们以空格区分,并且您的字符串本身使用提取的文本具有空格可能不会太有用。我必须看到完整的pdf,知道这是否有效,但尝试:
From tabula import read_pdf
df = read_pdf("grocery2.pdf")
然后,您可以执行任何数据帧操作以提取不同的值即
df1 = df[['UPC', 'Product Description']]