RSS阅读器上的Captchas?

时间:2012-05-07 10:28:40

标签: rss feed aggregator

这个问题来自一个非技术人员。我已经要求一个团队构建一种RSS阅读器。从本质上讲,它是一个新闻聚合器。我们最初想到的是直接从特定来源获取新闻:ft.com,reuters.com和bloomberg.com。

现在,开发团队已经提出了某种方法(因为它会更容易)......这就是使用news.google.com并返回结果。现在我知道这有可疑的合法性,我们对这个事实并不是很满意,但是当法律部门正在检查时......我们已经开始使用原型了。

现在出现技术问题......因为该方法实际上是通过news.google.com模拟搜索,在一段时间后它会返回验证码。我怀疑它是因为该方法搜索结果显示为RSS 而不是直接的 RSS ...但是开发团队说RSS完全是一样的东西......而且它也会给验证码。

我有疑虑。如果是这样的话,其他新闻聚合网站如何完成来自不同来源的资料汇编?

供您参考,以下是最终给出CAPTCHA的URL https://news.google.com/news/feeds?hl=en&gl=sg&as_qdr=a&authuser=0&q=dbs+bank+singapore&bav=on.2,or.r_gc.r_pw.r_cp.,cf.osb&biw=1280&bih=963&um=1&ie=UTF-8&output=rss

2 个答案:

答案 0 :(得分:2)

“搜索”通常位于验证码背后,因为它非常耗费资源,因此他们尽一切可能阻止机器人搜索。正常的RSS提要与资源密集型相反。总结一下:正常的RSS提要可能不会触发CAPTCHA。

答案 1 :(得分:1)

由于Google自2011年5月26日宣布其新闻API已被弃用,因此可能会使用此NewsCred中建议的http://productforums.google.com/forum/#!topic/news/RBRH8pihQJI作为商业用途的选项。