我是R的新手,在网络编程方面有0经验。 现在我被分配了一个项目来争论和可视化航空安全数据。 我在网上搜索了数据并在这里找到了网站http://aviation-safety.net/database/ 我对飞机类型,年份,国家和航空公司子类别感兴趣,我如何使用rvest将这些数据作为数据框下载?
这就像一个免费乘车问题,但刮擦是我所不知道的。
答案 0 :(得分:1)
实际上rvest
使这非常简单。以此为例1919年数据的链接,然后
library(rvest)
read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
html_table()
[[1]]
date type registration operator fat. location pic cat
1 02-AUG-1919 Caproni Ca.48 Caproni 14 Verona NA NA A1
2 11-AUG-1919 Felixstowe Fury N123 RAF 1 near Felixtowe RNAS NA NA A1
这些链接应该是直截了当的,即使没有抓取它们,对吧?要从图片中获取国家/地区,您必须选择标记图像标题
read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
html_nodes(".innertube > table") %>%
html_nodes(".list > img") %>% html_attr("title") %>% na.omit()
[1] "Italy" "U.K."
attr(,"na.action")