应用错误收集

如何在R中刮取javascript表？

时间：2016-05-23 23:08:56

标签： javascript r web-scraping

我想从citibike中抓一张桌子：https://s3.amazonaws.com/tripdata/index.html

我的目标是一次性获取zip文件的URL，而不是手动键入所有日期并每次下载一个。由于网页每月更新一次，每次运行该功能时，我都希望能够获取所有最新的数据文件。

我首先尝试使用Rvest和XML包，然后意识到网页包含html和由javascript函数生成的表。这就是问题所在。

非常感谢任何帮助，如果我能提供更多信息，请告诉我。

1 个答案:

答案 0 :(得分：1)

如果我转到https://s3.amazonaws.com/tripdata/（只是根，没有index.html），我会得到一个简单的XML文件。如果要解析XML，则相关元素为Key（大写K，小写e，y），但我只搜索纯文本，即：忽略XML，将其视为简单的文本文件，获取<Key>和</Key>之间的每个字符串都将其视为文件名，前缀为https://s3.amazonaws.com/tripdata/以获取它。

第一个条目就像它似乎一样（170 MB），所以你可以单独使用它。