标签: web-crawler localhost webserver search-engine
我将robots.txt文件添加到本地Web服务器的根目录。
服务器上robots.txt文件的网址为http://localhost/myserver/robots.txt。
http://localhost/myserver/robots.txt
robots.txt文件的内容是
User-agent: * Disallow: /
如何验证robots.txt文件是否适用于本地Web服务器?
我是否需要在本地安装一些网络抓取工具或搜索引擎并运行它来验证?
感谢。
答案 0 :(得分:2)
据我所知,robots.txt文件不会阻止抓取工具抓取您的网站。它坚持不坚持。这意味着你无法验证这些作品是否不合适。
robots.txt
相反,您可以并且应该验证的是,抓取工具在访问您的网站时能够阅读您的robots.txt。您可以通过遵循惯例来确保这一点。
这意味着您的robots.txt文件应存在于根路径下。 如果您要在xyz域名下托管您的网站,则http://xyz/robots.txt应该是该位置。
xyz
http://xyz/robots.txt
有关详情,请查看this。
如果您的网站处于在线状态,则可以使用任何在线工具验证robots.txt是否可访问。其中一个工具是this。