这是关于编写Web应用程序的一般问题。
我有一个应用程序可以计算文章的页面浏览量以及我为我的客户安装的网址缩短脚本。问题是,每当机器人访问网站时,他们都会倾向于夸大网页浏览量。
有没有人知道如何从这些应用程序的查看次数中消除机器人视图?
答案 0 :(得分:4)
有几种方法可以确定您的文章是由实际用户还是搜索引擎机器人查看。可能最好的方法是检查浏览器(或bot)发送的User-Agent标头。 User-Agent标头本质上是一个字段,用于标识用于访问资源的客户端应用程序。例如,Internet Explorer可能会发送一些Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)
。 Google的机器人可能会发送Googlebot/2.1 (+http://www.google.com/bot.html)
之类的内容。可以发送虚假的User-Agent标头,但我看不到普通网站用户或Google这样的大公司这样做。如果它是空白的或与商业机器人相关联的常见用户代理字符串,则很可能是机器人。
当您使用它时,您可能需要确保拥有最新的robots.txt文件。这是一个简单的文本文件,提供自动机器人应该尊重哪些内容不允许检索索引的规则。
以下是一些可能有用的资源:
答案 1 :(得分:2)
检查User-Agent
。使用此标头值可将机器人与常规浏览器/用户区分开来。
例如,
谷歌机器人:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Safari浏览器:
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; lv-lv) AppleWebKit/531.22.7 (KHTML, like Gecko) Version/4.0.5 Safari/531.22.7