应用错误收集

时间：2012-10-19 21:49:42

标签： r web text-mining

我正在尝试使用RCurl和XML包来下载和挖掘WSJ（华尔街日报）的文章。但是，每当我使用来自RCurl的getURL时，我都会获得可供公众查看的文章版本。

我希望能够下载文章的完整版本 - 因为我是付费会员。我想我必须通过登录凭证，当我调用函数getURL时，但是，我不知道该怎么做..

如果有人能解释如何使用WSJ这样的网站，使用login-info来获取数据，我将不胜感激，以及我如何调整RCurl以便将这些信息考虑在内。一个非常简单的例子将大大解释设置cookie（文件，jar，..）等的不同概念

提前谢谢

答案 0 :(得分：1)

通常，身份验证信息不会存储在Cookie中。相反，“会话cookie”存储在您的计算机上 - 并指的是存储在服务器上的身份验证。有关更多信息和指示，请参阅Session management article on Wikipedia。

所以基本上你需要为这个站点创建一个cookie jar文件，用curl登录（这可能很痛苦，因为WSJ不使用标准的基于表单的POST，而是依赖于javascript），然后你' ll能够告诉curl重新使用cookie来对文章进行以下请求。阅读this answer以了解如何在实践中完成此操作。