在没有访问api的情况下刮掉pastebin的最佳速率?

时间:2016-07-29 16:22:44

标签: web-scraping pastebin

正如标题所述,我试图找出刮掉pastebin而不会阻止其存档页面的最佳速率。还有其他人想出来了吗?

2 个答案:

答案 0 :(得分:1)

我遇到了类似的问题。最后,我不得不求助于一台服务器,每3分钟负责一次收集ID号(这是除非有人发疯,否则我们不会丢失任何ID的速度!),然后创建一个API来暴露这些ID ID号,这样一组外部服务器都可以从不同的IP地址运行,它们可以获取粘贴的并将其保存到中央数据库。中央脚本按顺序将serverID分配给每个ID号,这样就不会发生冲突或重复刮擦,结果是每个“从属刮擦器”在刮擦之间总共暂停了4分钟,并且收割仅设法跟上了ID收集。这并不会触发讨厌的IP速率限制。如果我付我可以免费获得的东西,该死的!

答案 1 :(得分:0)

我不知道这是不是你的意思,但是http://pastebin.com/api_scraping_faq API文档说“我们建议每秒不要超过1个请求。”任何大于此的东西都应该没问题