标签: zip compression bzip
我们必须处理通过Internet提取gzip / bzip文件的问题,有时它们超过了数GB(例如15gb wiki dump)。
是否可以通过多台计算机而不是一台计算机提取这些内容?也许读取集群中每个节点的标头以及X和Y之间的字节,然后将其写入共享文件夹中?
或者其他可以加速该过程的方式?
答案 0 :(得分:0)
您是否考虑过使用gzip / bzip的并行化替代方案?
在使用bzip的情况下,pbzip2是使用pthread加速下载的并行化替代方案。另外,pgzip是gzip的并行替代品。