使用rvest包来刮取航空安全数据

时间:2018-03-04 23:54:11

标签: r web-scraping rvest

我是R的新手,在网络编程方面有0经验。 现在我被分配了一个项目来争论和可视化航空安全数据。 我在网上搜索了数据并在这里找到了网站http://aviation-safety.net/database/ 我对飞机类型,年份,国家和航空公司子类别感兴趣,我如何使用rvest将这些数据作为数据框下载?

这就像一个免费乘车问题,但刮擦是我所不知道的。

1 个答案:

答案 0 :(得分:1)

实际上rvest使这非常简单。以此为例1919年数据的链接,然后

library(rvest)

read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
  html_table()

[[1]]
         date            type registration operator fat.            location    pic cat
1 02-AUG-1919   Caproni Ca.48               Caproni   14              Verona NA  NA  A1
2 11-AUG-1919 Felixstowe Fury         N123      RAF    1 near Felixtowe RNAS NA  NA  A1

这些链接应该是直截了当的,即使没有抓取它们,对吧?要从图片中获取国家/地区,您必须选择标记图像标题

read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
  html_nodes(".innertube > table") %>%
  html_nodes(".list > img") %>% html_attr("title") %>% na.omit()

[1] "Italy" "U.K." 
attr(,"na.action")