我想从citibike中抓一张桌子:https://s3.amazonaws.com/tripdata/index.html
我的目标是一次性获取zip文件的URL,而不是手动键入所有日期并每次下载一个。由于网页每月更新一次,每次运行该功能时,我都希望能够获取所有最新的数据文件。
我首先尝试使用Rvest和XML包,然后意识到网页包含html和由javascript函数生成的表。这就是问题所在。
非常感谢任何帮助,如果我能提供更多信息,请告诉我。
答案 0 :(得分:1)
如果我转到https://s3.amazonaws.com/tripdata/(只是根,没有index.html
),我会得到一个简单的XML文件。如果要解析XML,则相关元素为Key
(大写K,小写e,y),但我只搜索纯文本,即:忽略XML,将其视为简单的文本文件,获取<Key>
和</Key>
之间的每个字符串都将其视为文件名,前缀为https://s3.amazonaws.com/tripdata/
以获取它。
第一个条目就像它似乎一样(170 MB),所以你可以单独使用它。