Reddit的JSON API是否具有无证人工限制以防止刮擦?

时间:2011-12-23 00:03:08

标签: json api http web-crawler reddit

看起来JSON API会返回与浏览器截然不同的结果。

将此网址放入浏览器并查看结果,然后使用API​​ Kitchen,Curl,Mechanize等进行尝试

http://www.reddit.com/r/guitar/new/.json?limit=100

您可以使用浏览器获得100个结果。使用非浏览器检索它的方法可以得到1-2个结果。

这是一个错误,还是故意设计,以限制网络抓取工具从Reddit收集的内容?在较大的subreddits上,它会产生令人难以置信的不一致结果,并且“after”参数对于分页而言是不准确的,导致大量重复结果。

然而,我找不到任何文件表明这是故意的而不是错误。如果有限制,这很酷,我只想知道它们是什么,所以我可以在我的代码中正确地尊重它们。

0 个答案:

没有答案