Question

在Google网站站长工具中，在抓取错误/其他情况下，我们发现此类网址有400错误：

/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>

enter image description here

这不是真正的网址，也不是我们要抓取的网址。它是一个下划线/骨干模板：

<script type="text/template" class="template" id="template-trees-list">
  <% _.each(trees, function(tree) { %>
    <a href="/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>" rel="nofollow">
      <%= tree.title %>
    </a>
  <% }); %>
</script>

为什么Google会在script区块内爬行？
为什么Google会忽略rel="nofollow"属性？
我们还能采取其他措施让Googlebot远离我们的下划线模板吗？

更新：我可以使用robots.txt，如果我能找到合适的模式来保存好页面并阻止坏页面。例如，我希望在阻止/surnames/Jones/queries时保留/surnames/Jones/queries/<%=url_slug%>。我有成千上万的人。看起来像Googlebot may support basic patterns，虽然不是完整的正则表达式。

更新2：嗯，这并没有找到根本原因，而且作为一个长期解决方案似乎有点脆弱，但我在GWT中测试了以下robots.txt模式将起作用：

User-agent: Googlebot
Disallow: /*url_slug%%3E$
Disallow: /*url_slug%%3E/$

Answer 1

通过robots.txt阻止这些，你会没事的

如何阻止Googlebot抓取我的Underscore客户端模板？

1 个答案: