我试图从目录中获取几个.pdf文件的内容,以便使用tika库将它们转换为文本,但我相信我没有正确读取.pdf文件对象。这是我到目前为止所尝试的:
输入:
for filename in sorted(glob.glob(os.path.join(input_directory, '*.pdf'))):
with open(filename,"rb") as f:
print(f)
text = parser.from_file(f)
输出:
<_io.BufferedReader name='/Users/user/Downloads/pdf-files/a_pdf_file.pdf'>
AttributeError: '_io.BufferedReader' object has no attribute 'decode'
在python中浏览文件内容的最有效方法是什么?。
答案 0 :(得分:1)
tika解析器接收路径并打开文件本身:
for filename in sorted(glob.glob(os.path.join(input_directory, '*.pdf'))):
parsed = parser.from_file(filename)
text = parsed['content']