PHP刮刀脚本中的Useragent

时间:2011-06-19 09:26:41

标签: php

我在我买的刮刀脚本中有一行PHP代码:

    $userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';

我猜这意味着脚本的行为就像Googlebot一样,我是否正确?如果是这种情况,我可以更改它,以便它是我自己的机器人的名称,如Searchbox?

2 个答案:

答案 0 :(得分:2)

用户代理完全是建议性的,它不应该对渲染页面产生任何影响(实际上,这将是针对Google's guidelines并导致被抛出索引)。它应该包含一个URL或电子邮件,网站管理员可以用它来联系行为不端机器人的所有者。

您不应假装是GoogleBot,而是在用户代理中包含您的电子邮件地址或主页。

$userAgent = 'scraper/1 (callum.whyte@example.com)';

答案 1 :(得分:0)

  

如果是这种情况,我可以更改它,以便它是我自己的机器人的名称,如Searchbox?

这取决于脚本的功能以及它所搜索的网站类型。谷歌博特代理字符串有一个原因 - 可能是trick news websites into showing paid content,或更无辜,以获得搜索引擎优化版本的内容。

如果您不需要依赖这些“副作用”,则可以选择所需的任何用户代理字符串。对于机器人,可以自定义包含“Bot”一词,以及网站管理员可以获取更多信息的URL。