我曾尝试过访问facebook.com网页。 该网站向我显示一个错误,由于站点robots.txt /
,它无法保存页面任何人都可以告诉robots.txt中的哪些语句使网站无法访问web.archive.org 我想这是因为这里提到的#permission语句(http://facebook.com/robots.txt)
我还能以其他方式为我的网站做这件事。
我也不想让woorank.com或builtwith.com分析我的网站。
注意:如果我向robots.txt添加一些语句以获得上述结果,搜索引擎机器人在抓取我的网站并将其编入索引时应该不会遇到任何问题。
答案 0 :(得分:4)
Internet Archive(archive.org)抓取工具使用User-Agent值ia_archiver
(请参阅their documentation)。
因此,如果您想在robots.txt中定位此僵尸程序,请使用
User-agent: ia_archiver
这正是what Facebook does in its robots.txt:
User-agent: ia_archiver Allow: /about/privacy Allow: /full_data_use_policy Allow: /legal/terms Allow: /policy.php Disallow: /