如何使用R来使用流式XML(RSS提要)?

时间:2015-01-05 00:53:13

标签: xml r rss

我在某种程度上了解如何使用XML包来读取和解析XML文件,例如一段RSS提要。但是,连续阅读RSS提要的基本设置是什么?

例如,假设我想要设置一个连续从http://evemaps.dotlan.net/feed/sovereignty读取源的工具,并将数据存储在某种R数据结构中(例如,data.frame)。我想我需要做类似以下的事情:

  1. 在服务器上设置R(例如,AWS实例上的RStudio Server)
  2. 打开与RSS订阅源的HTTP连接
  3. 继续阅读并解析Feed的不同位,并将其添加到data.frame,每增加一个条目就会增加
  4. 然而,这仍然是一个相当模糊的图片。我需要将哪些基本包和函数串联起来才能使其工作?含义:创建这样的设施需要采取哪些基本步骤?我不是在寻找任何人为我写这个设施(即使那会很好!)。相反,我试图了解涉及哪些整体步骤。

1 个答案:

答案 0 :(得分:1)

我认为你正在寻找

使用RSS客户端(即AWS上的R应用程序),您有两种选择:轮询或PubSubHubbub(又名webhooks,PuSH等)。如上所述here,通过轮询,您可能会在超出某些发布商的最大限额策略后受到限制。使用PuSH,发布者的服务器会在有新的更新时实时通知您的R应用程序,因为它可以作为订阅。

上面链接的SO答案导致了流行的即付即用集线器提供商Superfeedr和a post的博客,它描述了PuSH协议的工作流程并显示了命令行实现。

您可以通过制作PuSH的工程师之一,this Google IO 2010 presentation了解有关协议的更多信息。