Multistream Wikipedia转储

时间:2015-11-11 00:14:36

标签: xml wiki wikipedia bzip2 wikimedia-dumps

我下载了德语维基百科dump dewiki-20151102-pages-articles-multistream.xml。我的简短问题是:'多数据流'在这种情况下意味着什么?

2 个答案:

答案 0 :(得分:16)

使用bz2压缩转储,bz2支持并行版本,允许它更快地压缩/解压缩文件。 使用并行版本的压缩数据标记为{{1}}。

当您从编程语言处理转储时,了解此信息会有所不同,因为您必须传递一个标志来告诉库如何解压缩它(并行或非并行)。

答案 1 :(得分:1)

multistream允许根据需要使用索引来解压缩节,而不必解压缩整个内容。

这使读者可以从压缩转储中提取文章。