在Google网站站长工具中,在抓取错误/其他情况下,我们发现此类网址有400错误:
/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>
这不是真正的网址,也不是我们要抓取的网址。它是一个下划线/骨干模板:
<script type="text/template" class="template" id="template-trees-list">
<% _.each(trees, function(tree) { %>
<a href="/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>" rel="nofollow">
<%= tree.title %>
</a>
<% }); %>
</script>
script
区块内爬行?rel="nofollow"
属性?更新:我可以使用robots.txt,如果我能找到合适的模式来保存好页面并阻止坏页面。例如,我希望在阻止/surnames/Jones/queries
时保留/surnames/Jones/queries/<%=url_slug%>
。我有成千上万的人。看起来像Googlebot may support basic patterns,虽然不是完整的正则表达式。
更新2:嗯,这并没有找到根本原因,而且作为一个长期解决方案似乎有点脆弱,但我在GWT中测试了以下robots.txt模式将起作用:
User-agent: Googlebot
Disallow: /*url_slug%%3E$
Disallow: /*url_slug%%3E/$
答案 0 :(得分:1)
通过robots.txt阻止这些,你会没事的