将函数应用于python中目录的每个元素内容时出现问题?

时间:2016-10-07 20:14:24

标签: python python-3.x pdf io ipython-parallel

我试图从目录中获取几个.pdf文件的内容,以便使用tika库将它们转换为文本,但我相信我没有正确读取.pdf文件对象。这是我到目前为止所尝试的:

输入:

for filename in sorted(glob.glob(os.path.join(input_directory, '*.pdf'))):
    with open(filename,"rb") as f:
        print(f)
        text = parser.from_file(f)

输出:

<_io.BufferedReader name='/Users/user/Downloads/pdf-files/a_pdf_file.pdf'>
AttributeError: '_io.BufferedReader' object has no attribute 'decode'

在python中浏览文件内容的最有效方法是什么?。

1 个答案:

答案 0 :(得分:1)

tika解析器接收路径并打开文件本身:

for filename in sorted(glob.glob(os.path.join(input_directory, '*.pdf'))):
    parsed = parser.from_file(filename)
    text = parsed['content']