要为所有维基百科图像下载哪些文件

时间:2013-03-12 13:17:46

标签: dump wikipedia

我想下载所有中文维基百科数据(文字+图片),我下载文章但是我对这些媒体文件感到困惑,而且远程媒体文件也非常庞大,它们是什么?我必须下载它们吗?

来自:http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar   4.1G
zhwiki-20121104-remote-media-1.tar  69.9G
zhwiki-20121104-remote-media-2.tar  71.1G
zhwiki-20121104-remote-media-3.tar  69.3G
zhwiki-20121104-remote-media-4.tar  48.9G

谢谢!

1 个答案:

答案 0 :(得分:1)

我认为它们是维基共享资源中包含的媒体文件,这些文章是文章中的大部分图像。来自https://wikitech.wikimedia.org/wiki/Dumps/media

  

对于每个wiki,我们通过/backups/imageinfo/wmfgetremoteimages.py转储图像,图像链接和重定向表。文件将写入/ data / xmldatadumps / public / other / imageinfo / on dataset2。

     

从上面我们生成每个wiki的所有远程存储(即公共)媒体的列表,使用不同的args到同一个脚本。

对于来自中文维基百科的所有文件来说,这并不是那么大: - )