Question

我想用wget Linux命令镜像维基百科页面我用了这个命令

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index

但我只收到这个档案的robots.txt

Answer 1

不要那样做。它给维基百科的Web服务器带来了巨大的负担，您的IP将被阻止。

如果您想要维基百科的镜像，请从https://dumps.wikimedia.org/下载其数据库的转储。英语维基的最新完整转储（截至目前）可在以下网址获得：

如果您只需要特定网页的数据，请考虑使用the MediaWiki API。

Answer 2

wget中的{p> Robot exclusion is on by default让人们不再是混蛋，而是递归地吞噬别人的网页及其带宽。

您可以在.wgetrc文件中将其关闭，或者使用wget的-e开关，例如：-e robots=off

这并不是说维基百科没有进一步的安全防范措施来确保你的wget不会递归地下载所有内容，但它会让wget不再尊重robots.txt和meta

如果你仍然碰壁，那么可能会修改用户代理或类似的东西。