我刚刚开始为我的硕士论文学习python。我的任务是分析PDF并提取数据。我已经写了一段代码来帮助我提取“ Total Assets”:
def parsePage(pageInfo):
pageText = pageInfo.extractText()
assetIndex = pageText.find("Total assets")
if assetIndex != -1:
trimmedText = pageText[assetIndex:]
result = RegEx.search("[\\d,]+", trimmedText)
if result:
totalAssets = result.group()
print ("Total Assets")
print(totalAssets)
return True
else:
print ("not found")
return False
print ("We Work")
parsePDF ("wework.pdf")
现在我的问题是:有没有一种方法可以解析PDF(全部),意味着我已经保存在该位置的所有PDF?最终,这些将占大约4000。
非常感谢!
P.S。我已经使用此功能来识别文件夹中的所有PDF:
listOfFiles = os.listdir('.')
pattern = "*.pdf"
for entry in listOfFiles:
if fnmatch.fnmatch(entry, pattern):
print (entry)