我在我买的刮刀脚本中有一行PHP代码:
$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';
我猜这意味着脚本的行为就像Googlebot一样,我是否正确?如果是这种情况,我可以更改它,以便它是我自己的机器人的名称,如Searchbox?
答案 0 :(得分:2)
用户代理完全是建议性的,它不应该对渲染页面产生任何影响(实际上,这将是针对Google's guidelines并导致被抛出索引)。它应该包含一个URL或电子邮件,网站管理员可以用它来联系行为不端机器人的所有者。
您不应假装是GoogleBot,而是在用户代理中包含您的电子邮件地址或主页。
$userAgent = 'scraper/1 (callum.whyte@example.com)';
答案 1 :(得分:0)
如果是这种情况,我可以更改它,以便它是我自己的机器人的名称,如Searchbox?
这取决于脚本的功能以及它所搜索的网站类型。谷歌博特代理字符串有一个原因 - 可能是trick news websites into showing paid content,或更无辜,以获得搜索引擎优化版本的内容。
如果您不需要依赖这些“副作用”,则可以选择所需的任何用户代理字符串。对于机器人,可以自定义包含“Bot”一词,以及网站管理员可以获取更多信息的URL。