我有.tar文件中的文件,我能够从##。tar文件中提取成员,我也使用tika解析器来解析pdf文件,收到文件未找到错误。
with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf:
for members in tarf.getmembers():
f = tarf.extractfile(members)
parsed_pdf = parser.from_file(f)
我不想在另一个目录中提取pdf,只是从.tar文件中读取
答案 0 :(得分:0)
能够通过使用以下代码解决上述问题
for members in tarf.getnames()[1:]:
tarf.extract( members, './full_text')
parsed_pdf = parser.from_file(os.path.join(DEFAULT_PATH,filename))