我想下载所有中文维基百科数据(文字+图片),我下载文章但是我对这些媒体文件感到困惑,而且远程媒体文件也非常庞大,它们是什么?我必须下载它们吗?
来自:http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/
zhwiki-20121104-local-media-1.tar 4.1G
zhwiki-20121104-remote-media-1.tar 69.9G
zhwiki-20121104-remote-media-2.tar 71.1G
zhwiki-20121104-remote-media-3.tar 69.3G
zhwiki-20121104-remote-media-4.tar 48.9G
谢谢!
答案 0 :(得分:1)
我认为它们是维基共享资源中包含的媒体文件,这些文章是文章中的大部分图像。来自https://wikitech.wikimedia.org/wiki/Dumps/media:
对于每个wiki,我们通过/backups/imageinfo/wmfgetremoteimages.py转储图像,图像链接和重定向表。文件将写入/ data / xmldatadumps / public / other / imageinfo / on dataset2。
从上面我们生成每个wiki的所有远程存储(即公共)媒体的列表,使用不同的args到同一个脚本。
对于来自中文维基百科的所有文件来说,这并不是那么大: - )