Question

我有.tar文件中的文件，我能够从##。tar文件中提取成员，我也使用tika解析器来解析pdf文件，收到文件未找到错误。

 with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf:
    for members in tarf.getmembers():
        f = tarf.extractfile(members)
        parsed_pdf =  parser.from_file(f)

我不想在另一个目录中提取pdf，只是从.tar文件中读取

Answer 1

能够通过使用以下代码解决上述问题

        for members in tarf.getnames()[1:]:

           tarf.extract( members, './full_text')
           parsed_pdf =  parser.from_file(os.path.join(DEFAULT_PATH,filename))

如何使用python读取pdf包含在.tar文件中

1 个答案: