使用自己的程序对网站进行爬网时应使用什么User-Agent

时间:2018-09-10 11:42:56

标签: http http-headers user-agent

我用node.js制作了搜寻器。我想每小时抓取一些网站。

我试图找出应该使用的用户代理,但结果只有google bot和bing bot这样的结果。我不知道我是否可以使用这些用户代理。

您能告诉我应该使用哪个用户代理吗?

2 个答案:

答案 0 :(得分:1)

取决于您要实现的目标。如果您想模仿合法的浏览器,只需使用Chrome或Firefox等通用浏览器的用户代理即可。如果您想告诉网站您是爬虫,只需使用您定义的内容(例如xyzCrawler)。

答案 1 :(得分:1)

自从创建了自己的搜寻器以来,您就可以自己命名。关于UserAgent可能没有什么规则,但是许多规则都使用name/version之类的格式,例如:

myAwesomeCrawler/1.0

您还可以添加一个网址,以便网站所有者在您的日志中看到它时,可以找到有关您的机器人的更多信息:

myAwesomeCrawler/1.0 (http://example.org)

但最终取决于您。

这当然全部取决于您所做的非非法行为或违反您正在爬网的网站的服务条款。