我试图合并我能够独立完成的两件事。不幸的是,PDFMiner文档根本没用。
我有一个包含数百个PDF的文件夹,名称为"[0-9].pdf"
,其中没有特别的顺序,我也不在乎对它们进行排序。我只需要一种方法来浏览它们并将它们转换为文本。
使用这篇文章:Microsoft's "Flow Ideas" community - 我能够成功地从一个PDF中提取文本。
这篇文章的一些内容:Extracting text from a PDF file using PDFMiner in python? - 对于确定如何打开一个包含PDF的文件夹并使用它们非常有用。
现在,我只是不知道如何将它们组合成一个一个打开PDF,将其转换为文本对象,将其保存到具有相同original-filename.txt
的文本文件中,然后转到目录中的下一个PDF。
这是我的代码:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
import os
import glob
directory = r'./Documents/003/' #path
pdfFiles = glob.glob(os.path.join(directory, '*.pdf'))
resourceManager = PDFResourceManager()
returnString = StringIO()
codec = 'utf-8'
laParams = LAParams()
device = TextConverter(resourceManager, returnString, codec=codec, laparams=laParams)
interpreter = PDFPageInterpreter(resourceManager, device)
password = ""
maxPages = 0
caching = True
pageNums=set()
for one_pdf in pdfFiles:
print("Processing file: " + str(one_pdf))
fp = file(one_pdf, 'rb')
for page in PDFPage.get_pages(fp, pageNums, maxpages=maxPages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = returnString.getvalue()
filenameString = str(one_pdf) + ".txt"
text_file = open(filenameString, "w")
text_file.write(text)
text_file.close()
fp.close()
device.close()
returnString.close()
我没有编译错误,但我的代码没有做任何事情。
感谢您的帮助!
答案 0 :(得分:0)
用@LaurentLAPORTE解决方案的想法回答我自己的问题。
使用directory
将os
设置为绝对路径,如下所示:os.path.abspath("../Documents/003/")
。然后它就可以了。