我有一个使用 AngularJS 构建的单页应用,可以基于第一<来自 REST API 显示内容动态 / strong> URI参数。
如何阻止Bots抓取除主页和登录页面之外的任何内容?
示例网址为:
我搜索了一些示例,并尝试使用以下命令进行通配:
User-agent: *
Disallow: /*
Allow: /login
但这无效。我也不能在html中使用元标记,因为页面内容是在页眉和页脚之后动态加载的。
任何想法都会非常感激!
答案 0 :(得分:1)
这应该满足您的使用案例,但是,我不确定这是否正是您想要的。
User-agent: *
Disallow: /
Allow: /$
Allow: /login
Disallow:行阻止抓取工具抓取任何内容。这是最具侵略性的命令。
然后第一个允许:授予抓取工具获取主页的权限,但没有别的。由于我们使用 $ 来结束路径,因此不会抓取任何位于root下的查询参数或文件。如果要允许查询参数,也可以添加它:
Allow: /?
最终的允许声明将允许抓取您的登录页面,但老实说,大多数人都不允许抓取他们的登录页面,因为它通常没有您真正排名的内容对于。但它是完全可以接受的,因为有一些边缘情况,如果用户在主页上不明显,则会查找登录页面。