Question

我刚刚开始为我的硕士论文学习python。我的任务是分析PDF并提取数据。我已经写了一段代码来帮助我提取“ Total Assets”：

def parsePage(pageInfo):

pageText = pageInfo.extractText() 
assetIndex = pageText.find("Total assets")

if assetIndex != -1:
    trimmedText = pageText[assetIndex:] 

    result = RegEx.search("[\\d,]+", trimmedText)
    if result:
        totalAssets = result.group() 
        print ("Total Assets")
        print(totalAssets)
        return True
    else:
        print ("not found")
        return False

print ("We Work")
parsePDF ("wework.pdf")

现在我的问题是：有没有一种方法可以解析PDF（全部），意味着我已经保存在该位置的所有PDF？最终，这些将占大约4000。

非常感谢！

P.S。我已经使用此功能来识别文件夹中的所有PDF：

listOfFiles = os.listdir('.')
pattern = "*.pdf"
for entry in listOfFiles:
   if fnmatch.fnmatch(entry, pattern):
        print (entry)

Python：使用PyPDF2解析parsePDF（一次多个PDF）

0 个答案: