我想用wget Linux命令镜像维基百科页面 我用了这个命令
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
但我只收到这个档案 的robots.txt
答案 0 :(得分:4)
不要那样做。它给维基百科的Web服务器带来了巨大的负担,您的IP将被阻止。
如果您想要维基百科的镜像,请从https://dumps.wikimedia.org/下载其数据库的转储。英语维基的最新完整转储(截至目前)可在以下网址获得:
https://dumps.wikimedia.org/enwiki/20160407/
如果您只需要特定网页的数据,请考虑使用the MediaWiki API。
答案 1 :(得分:1)
wget
中的{p> Robot exclusion is on by default让人们不再是混蛋,而是递归地吞噬别人的网页及其带宽。
您可以在.wgetrc
文件中将其关闭,或者使用wget的-e
开关,例如:-e robots=off
这并不是说维基百科没有进一步的安全防范措施来确保你的wget不会递归地下载所有内容,但它会让wget不再尊重robots.txt和meta
如果你仍然碰壁,那么可能会修改用户代理或类似的东西。