Python:使用PyPDF2解析parsePDF(一次多个PDF)

时间:2020-03-09 11:19:38

标签: python pypdf2

我刚刚开始为我的硕士论文学习python。我的任务是分析PDF并提取数据。我已经写了一段代码来帮助我提取“ Total Assets”:

def parsePage(pageInfo):

pageText = pageInfo.extractText() 
assetIndex = pageText.find("Total assets")

if assetIndex != -1:
    trimmedText = pageText[assetIndex:] 

    result = RegEx.search("[\\d,]+", trimmedText)
    if result:
        totalAssets = result.group() 
        print ("Total Assets")
        print(totalAssets)
        return True
    else:
        print ("not found")
        return False

print ("We Work")
parsePDF ("wework.pdf")

现在我的问题是:有没有一种方法可以解析PDF(全部),意味着我已经保存在该位置的所有PDF?最终,这些将占大约4000。

非常感谢!

P.S。我已经使用此功能来识别文件夹中的所有PDF:

listOfFiles = os.listdir('.')
pattern = "*.pdf"
for entry in listOfFiles:
   if fnmatch.fnmatch(entry, pattern):
        print (entry)

0 个答案:

没有答案