在一个目录中包含大量带有文本的PDF文件。我的想法是能够一次阅读所有内容并保存在字典中。现在,我只能通过使用textract
库来逐个执行此操作:
import textract
text = textract.process('/Users/user/Documents/Data/CLAR.pdf',
method='tesseract',
language='eng')
如何立即阅读它们?我是否需要使用for
循环在目录中搜索或以其他方式搜索?
答案 0 :(得分:2)
一种解决方案可能是将os library
与for loop
import os
import textract
files_path = [os.path.abspath(x) for x in os.listdir()]
# Excluding not .pdf files
files_path = [pdf for pdf in files_path if '.pdf' in pdf]
pdfs = []
for file in files_path:
text = textract.process(file,
method='tesseract',
language='eng')
pdfs += [text]
.pdf
个文件