如何在R中刮取javascript表?

时间:2016-05-23 23:08:56

标签: javascript r web-scraping

我想从citibike中抓一张桌子:https://s3.amazonaws.com/tripdata/index.html

我的目标是一次性获取zip文件的URL,而不是手动键入所有日期并每次下载一个。由于网页每月更新一次,每次运行该功能时,我都希望能够获取所有最新的数据文件。

我首先尝试使用Rvest和XML包,然后意识到网页包含html和由javascript函数生成的表。这就是问题所在。

非常感谢任何帮助,如果我能提供更多信息,请告诉我。

1 个答案:

答案 0 :(得分:1)

如果我转到https://s3.amazonaws.com/tripdata/(只是根,没有index.html),我会得到一个简单的XML文件。如果要解析XML,则相关元素为Key(大写K,小写e,y),但我只搜索纯文本,即:忽略XML,将其视为简单的文本文件,获取<Key></Key>之间的每个字符串都将其视为文件名,前缀为https://s3.amazonaws.com/tripdata/以获取它。

第一个条目就像它似乎一样(170 MB),所以你可以单独使用它。