我有大量的RSS源,我需要每秒更新或更少。是否存在任何陷入困境的解决方案,例如部分检查或更改或检查文件大小或修改RSS提要以仅显示最后一篇新闻文章以减少带宽?这个问题对于它的解决方案来说是非常通用的,但是特定于RSS提要,所以请随意添加我可能错过的另一个标签。
答案 0 :(得分:0)
不是答案,而是渴望发表评论。
<强>带宽强>
让我们做一些计算:一个典型的rss feed可能在200kB左右(不包括图像)。每秒轮询1000个将需要200MB / s的带宽。这可以通过专业的互联网连接实现。您需要同时连接多个连接,因此需要多线程设置。如果处理时间占用大量CPU能力,此设置最终将使其更容易在多个服务器上进行扩展。
请注意,这是没有图像的。
请查看这些规范,并了解skiphours
和ttl
等内容。提供有关轮询服务的提示。
https://cyber.harvard.edu/rss/rss.html
<强>处理强>
Rss项通常有pubDate
,您可以使用它来排除处理流程中的项目。这不应该是一个瓶颈。如果将数据保存到数据库,则可能需要深入了解数据库以进行优化。
潜在问题
pubDate
中使用请求日期/时间(我知道cnn倾向于这样做)。