如何用wget linux命令镜像维基百科页面?

时间:2016-05-04 18:17:19

标签: linux web command-line wget mirror

我想用wget Linux命令镜像维基百科页面 我用了这个命令

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index

但我只收到这个档案 的robots.txt

2 个答案:

答案 0 :(得分:4)

不要那样做。它给维基百科的Web服务器带来了巨大的负担,您的IP将被阻止。

如果您想要维基百科的镜像,请从https://dumps.wikimedia.org/下载其数据库的转储。英语维基的最新完整转储(截至目前)可在以下网址获得:

https://dumps.wikimedia.org/enwiki/20160407/

如果您只需要特定网页的数据,请考虑使用the MediaWiki API

答案 1 :(得分:1)

wget中的{p> Robot exclusion is on by default让人们不再是混蛋,而是递归地吞噬别人的网页及其带宽。

您可以在.wgetrc文件中将其关闭,或者使用wget的-e开关,例如:-e robots=off

这并不是说维基百科没有进一步的安全防范措施来确保你的wget不会递归地下载所有内容,但它会让wget不再尊重robots.txt和meta

如果你仍然碰壁,那么可能会修改用户代理或类似的东西。