我有一堆客户,我想根据什么机器人抓取他们的网站来定制网站。是否可以创建一个脚本来检测哪个搜索引擎机器人正在抓取该网站,然后跟踪该网站或采取其他措施?
答案 0 :(得分:1)
许多机器人都有一个特定的用户代理。你可以用它过滤机器人,然后做你想做的任何动作。不确定你是否可以从前端做到这一点(这里有javascript标签,除非我们讨论的是node.js)。
对于googlebot用户代理的实例:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
来自PHP:
if($_SERVER['HTTP_USER_AGENT'] == 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)') {
doSomething();
}
我认为你不能从前端js那样做是因为很多机器人实际上并不使用javascript,他们只是阅读了http回复。
编辑:有一些机器人会解释Javascript(googlebot就是其中之一),虽然在某种程度上。
答案 1 :(得分:0)
你不能这样做,因为 JavaScript (文件或片段)不会被机器人抓取。只抓取你的文字和你的HTML。基本上所有内容都由您的服务器端"服务器提供。 (您的HTTP响应)。