使用robots.txt

时间:2015-09-07 02:05:30

标签: angularjs robots.txt

我有一个使用 AngularJS 构建的单页应用,可以基于第一<来自 REST API 显示内容动态 / strong> URI参数。

如何阻止Bots抓取除主页和登录页面之外的任何内容?

示例网址为:

http://example.com/CLIENT01

我搜索了一些示例,并尝试使用以下命令进行通配:

User-agent: *
Disallow: /*

Allow: /login

但这无效。我也不能在html中使用元标记,因为页面内容是在页眉和页脚之后动态加载的。

任何想法都会非常感激!

1 个答案:

答案 0 :(得分:1)

这应该满足您的使用案例,但是,我不确定这是否正是您想要的。

User-agent: *
Disallow: /
Allow: /$
Allow: /login

Disallow:行阻止抓取工具抓取任何内容。这是最具侵略性的命令。

然后第一个允许:授予抓取工具获取主页的权限,但没有别的。由于我们使用 $ 来结束路径,因此不会抓取任何位于root下的查询参数或文件。如果要允许查询参数,也可以添加它:

Allow: /?

最终的允许声明将允许抓取您的登录页面,但老实说,大多数人都不允许抓取他们的登录页面,因为它通常没有您真正排名的内容对于。但它是完全可以接受的,因为有一些边缘情况,如果用户在主页上不明显,则会查找登录页面。