Question

我有一个使用 AngularJS 构建的单页应用，可以基于第一<来自 REST API 显示内容动态 / strong> URI参数。

如何阻止Bots抓取除主页和登录页面之外的任何内容？

示例网址为：

http://example.com/CLIENT01

我搜索了一些示例，并尝试使用以下命令进行通配：

User-agent: * Disallow: /* Allow: /login

但这无效。我也不能在html中使用元标记，因为页面内容是在页眉和页脚之后动态加载的。

任何想法都会非常感激！

Answer 1

这应该满足您的使用案例，但是，我不确定这是否正是您想要的。

User-agent: *
Disallow: /
Allow: /$
Allow: /login

Disallow：行阻止抓取工具抓取任何内容。这是最具侵略性的命令。

然后第一个允许：授予抓取工具获取主页的权限，但没有别的。由于我们使用 $ 来结束路径，因此不会抓取任何位于root下的查询参数或文件。如果要允许查询参数，也可以添加它：

Allow: /?

最终的允许声明将允许抓取您的登录页面，但老实说，大多数人都不允许抓取他们的登录页面，因为它通常没有您真正排名的内容对于。但它是完全可以接受的，因为有一些边缘情况，如果用户在主页上不明显，则会查找登录页面。

使用robots.txt

1 个答案: