如何使用python读取pdf包含在.tar文件中

时间:2017-08-04 18:48:47

标签: python python-2.7 pdf apache-tika

我有.tar文件中的文件,我能够从##。tar文件中提取成员,我也使用tika解析器来解析pdf文件,收到文件未找到错误。

 with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf:
    for members in tarf.getmembers():
        f = tarf.extractfile(members)
        parsed_pdf =  parser.from_file(f)

我不想在另一个目录中提取pdf,只是从.tar文件中读取

1 个答案:

答案 0 :(得分:0)

能够通过使用以下代码解决上述问题

        for members in tarf.getnames()[1:]:

           tarf.extract( members, './full_text')
           parsed_pdf =  parser.from_file(os.path.join(DEFAULT_PATH,filename))