Question

我正在尝试使用python cgi中的多线程将多个文件（ard 25k）放入zip文件中。我已经编写了下面的脚本，但不知怎的，我得到的响应内容长度为0，响应中没有数据。这是我第一次在python中使用多线程。我在代码中缺少什么。甚至在发布数据之前是否打印输出？

任何帮助将不胜感激。

这是我的代码：

b = StringIO()
z = zipfile.ZipFile(b, 'w', zipfile.ZIP_DEFLATED)

def read_file(link):
    fname = link.split('/')
    fname = fname[-1]
    z.write(link, fname)

if __name__ == '__main__':
    form = cgi.FieldStorage()
    fileLinks = form.getvalue("fileLink")

    p = Pool(10)
    p.map(read_file, fileLinks)
    p.close()
    p.join()
    z.close()
    zipFilename = "DataFiles-" + str(time.time()) + ".zip"   
    length = b.tell()
    sys.stdout.write(
        HEADERS % ('application/zip', zipFilename, zipFilename, length)
    )
    b.seek(0)
    sys.stdout.write(b.read())
    b.close()

相同代码的顺序版本：

 for fileLink in fileLinks:
     fname = fileLink.split('/')
     filename = fname[-1] 
     z.write(fileLink, filename)
z.close()

Answer 1

问题应该是ZipFile.write()（一般ZipFile）不是线程安全的。

您必须以某种方式序列化对zip文件的线程访问。这是一种方法（在Python 3中）：

ziplock = threading.Lock()

def read_file(link):
    fname = link.split('/')
    fname = fname[-1]
    with ziplock:
        z.write(link, fname)

以这种方式执行它应该没有任何好处，因为锁实际上正在执行的是序列化zip文件的创建。

使用此版本可以实现一些并行化，在将文件内容添加到zip文件之前读取文件内容：

def read_file(link):
    fname = link.split('/')
    fname = fname[-1]
    # the file is read in parallel
    contents = open(link).read()
    with ziplock:
        # writes to the zip file a re serialized
        z.writestr(fname, contents)

然而，如果文件驻留在同一个文件系统上，那么对于所有效果，读取可能就好像它们已被操作系统序列化一样。

因为它是文件，并行化的可能目标是进程的CPU绑定部分，即压缩，而 zip 格式似乎不可能（因为zip文件的行为类似于目录，因此每个write()必须使状态准备好在close()上生成完整的存档。

如果您可以使用不同的压缩格式，那么并行化将在没有使用 gizp 进行压缩和使用 tar （tarfile）作为归档格式的锁定的情况下工作，因为每个文件可以并行读取和压缩，只有 tar 连接将以串行方式完成（.tar.gz或.tgz存档格式）。

在python中使用多线程下载文件

1 个答案: