如何使用RCurl从WSJ下载文章

时间:2012-10-19 21:49:42

标签: r web text-mining

我正在尝试使用RCurl和XML包来下载和挖掘WSJ(华尔街日报)的文章。但是,每当我使用来自RCurl的getURL时,我都会获得可供公众查看的文章版本。

我希望能够下载文章的完整版本 - 因为我是付费会员。我想我必须通过登录凭证,当我调用函数getURL时,但是,我不知道该怎么做..

  1. 此信息是否存储在Cookie中?
  2. 我是否需要“认证” - 无论差异(目的可能是什么)?
  3. 如果有人能解释如何使用WSJ这样的网站,使用login-info来获取数据,我将不胜感激,以及我如何调整RCurl以便将这些信息考虑在内。一个非常简单的例子将大大解释设置cookie(文件,jar,..)等的不同概念

    提前谢谢

1 个答案:

答案 0 :(得分:1)

通常,身份验证信息不会存储在Cookie中。相反,“会话cookie”存储在您的计算机上 - 并指的是存储在服务器上的身份验证。有关更多信息和指示,请参阅Session management article on Wikipedia

所以基本上你需要为这个站点创建一个cookie jar文件,用curl登录(这可能很痛苦,因为WSJ不使用标准的基于表单的POST,而是依赖于javascript),然后你' ll能够告诉curl重新使用cookie来对文章进行以下请求。阅读this answer以了解如何在实践中完成此操作。