我目前正在研究自己的小型网络抓取工具,并且想知道......
网络抓取工具再次访问相同网站的间隔是多少?
你应该每天重访一次吗?每小时一次?我真的不知道......有什么经验吗?也许有人可以指出我正确的方向?
答案 0 :(得分:3)
我认为您的抓取工具访问需要是有机的。
我首先每周爬一次列表,
当网站内容发生变化时,将其设置为每周抓取两次,
[然后]当您看到更频繁的更改时,您会更频繁地抓取。
算法需要足够聪明才能知道一次性编辑和频繁的网站更改之间的差异。
另外,永远不要忘记关注Robots.txt ......这是你应该抓到的第一页,你需要尊重它的内容。
答案 1 :(得分:2)
这将取决于您正在抓取的网站以及您对结果所做的工作。
有些人不会反对相当频繁的访问率,但其他人可能会限制您每天访问一次,例如。
很多网站都热衷于保护他们的内容(见证默多克和新闻国际对谷歌的抨击,并将时代(英国)置于付费墙之后),因此他们认为抓取者不信任。
如果您只是要抓取几个网站,那么值得联系网站所有者并解释您想要做什么,看看他们回复了什么。如果他们回复尊重他们的意愿并且始终遵守robots.txt
文件。
答案 2 :(得分:1)
即使是一个小时也可能是不礼貌的,这取决于你所追踪的网站和强烈的网站。我假设你这样做是为了练习,所以请帮助拯救世界并将自己局限于为处理大量负载而构建的网站,然后首先只获取HTTP标头以查看是否需要获取页面。
更有礼貌的是首先使用wget
来捕获有限集,将其存储在本地并抓取您的缓存。
如果你不是这样做的话,没有理由这样做,因为它已经死了,而且interwebz不需要另一个。