我正在尝试打开一个充满json数据的tar.gz文件,从中提取文本,并将它们保存回tar.gz.到目前为止,这是我在Python 3中的代码。
from get_clean_text import get_cleaned_text # my own module
import tarfile
import os
import json
from io import StringIO
from pathlib import Path
def make_clean_gzip(inzip):
outzip = "extracted/clean-" + inzip
with tarfile.open(inzip, 'r:gz') as infile, tarfile.open(outzip, 'w:gz') as outfile:
jfiles = infile.getnames()
for j in jfiles:
dirtycase = json.loads(infile.extractfile(j).read().decode("utf-8"))
cleaned = get_cleaned_text(dirtycase)
newtarfile = tarfile.TarInfo(Path(j).stem + ".txt")
fobj = StringIO()
fobj.write(cleaned)
newtarfile.size = fobj.tell()
outfile.addfile(newtarfile, fobj)
然而,这会引发OSError: unexpected end of data
。 (顺便说一句,我已经验证了我想写的所有字符串都是非零长度的,并且还验证了在文件对象上调用tell()
返回的值与调用len()
时的值相同。字符串)。
我找到了this prior SO,这表明问题是StringIO没有编码,所以我换了BytesIO for StringIO然后fobj.write(cleaned.encode("utf-8"))
,但这仍然会抛出相同的错误。
我也尝试过不在TarInfo对象上设置大小,并且该代码已经运行,但是创建了一个包含大量空文件的存档。
我错过了什么?谢谢!
答案 0 :(得分:2)
.addfile()
方法可能只调用您提供的文件对象上的.read()
- 在这种情况下不会返回任何内容,因为您已经已经在文件的末尾< / em>的。尝试在该行之前添加fobj.seek(0)
。