我正在为我的网站创建一个robots.txt文件,但是通过我的项目结构,我不确定该禁止什么。
我是否需要禁止标准的.NET MVC目录和文件,如/ App_Data,/ web.config,/ Controllers,/ Models,/ Global.asax?或者那些没有被索引的人?
像/ bin和/ obj这样的目录呢?
如果我想禁止某个页面,我是否禁止使用/Views/MyPage/Index.cshtml或/ MyPage?
此外,在robots.txt文件中指定站点地图时,我可以使用我的Web.sitemap,还是需要使用不同的xml文件?
答案 0 :(得分:4)
'robots.txt'指的是从网络抓取工具公开看到的路径。
抓取工具没有什么特别之处:它只是使用HTTP来向您的网站请求页面,就像用户一样。
因此,如果您的MVC站点已正确配置,则/web.config
等文件或您提及的路径将无法向外界显示,因为IIS和您的应用程序都不会配置为它们提供服务。即使指向这些文件,蜘蛛也会收到404 Not Found并继续。
同样,这些扩展程序也不会显示您的.cshtml
或.aspx
内容文件。相反,Web爬虫将准确地看到您将向用户显示的内容。