是否有技术可以忽略网页抓取工具中的某些文字

时间:2011-12-15 15:19:29

标签: jquery asp.net seo web-crawler

现在我的情况是我的使用条款是通过ascx控件加载的,当用户需要或想要看到它时显示w / jquery ...我喜欢这个UX因为我可以在一个jquery弹出我控制而不重定向用户。

问题是谷歌已经接受了这个,因为它被ascx加载为静态文本。我知道我可以把它放在一个新的页面中,只是重定向(并向robots.txt添加一个忽略规则),但我的问题是,如果我只在需要显示时加载此文本异步w / ajax,将google的网络抓取工具点击每个链接,仍然将所有这些法律文本归属到页面(并继续搞砸我的搜索引擎结果)。

在我尝试这种技术之前,我想知道是否有人1)他们使用过任何其他技术或者2)知道这种技术是否能最终起作用。 Google需要几天的时间来为我的网站编制索引,所以如果有人确切知道,我不想浪费时间。

请注意,我发现的唯一相关问题是here,但这个人试图对网络抓取工具恶毒。我只是想让robots.txt在不影响我的用户体验的情况下忽略行为。

1 个答案:

答案 0 :(得分:1)

您可以做的一件事是,只有当用户代理(即用户的浏览器)不是Googlebot时,才会显示您的使用条款。

在ASP.NET中,您可以通过选中Request.ServerVariables("HTTP_USER_AGENT")

来验证浏览器

Google报告以下用户代理:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

所以,只需用支票包装你的内容,如下:

if (! Request.ServerVariables("HTTP_USER_AGENT").Contains("Googlebot"))
{
     <your content here>
}
祝你好运!