如何在网页源中不可用的R中对数据进行网络抓取?

时间:2018-09-16 03:20:01

标签: html r web-scraping rvest

我正在尝试在R上从Flightradar上的特定机场抓取数据,例如https://www.flightradar24.com/data/airports/axa

具体来说,我想抓取到达和离开表的内容并将其存储在数据框中。看起来很简单,但是表的内容不是html页面源代码。

我尝试在Chrome上使用css选择器,并使用rvest函数标识了适当的css选择器,但无法为我提供正确的结果。例如,在尝试使用tr td作为css选择器来节省时间时,我尝试过:

library(rvest) webpage <- read_html("https://www.flightradar24.com/data/airports/axa") time <- html_nodes(webpage, "tr td") %>% html_text() head(time)

  

[1]“正在加载...”
  [2]“对不起,我们没有有关此机场航​​班的任何信息”
  [3]“ {{objFlight.flight.status.generic.eventTime.utc * 1000 || | |日期:timeFormat:timeZone}} {{objFlight.flight.time.scheduled.arrival * 1000 ||'-'|日期:timeFormat:timeZone}} {{objFlight.flight.identification.number.default}} {{objFlight.flight.airport.origin.position.region.city}}}({{objFlight.flight.airport.origin.code。 iata}}){{objFlight.flight.aircraft.model.code ||'-'}} {{objFlight.flight.aircraft.registration}} {{objFlight.flight.airline.name}}-“   [4]“ {{objFlight.flight.time.scheduled.arrival * 1000 ||'-'|日期:timeFormat:timeZone}}”
  [5]“ {{objFlight.flight.identification.number.default}}”
  [6]“ {{objFlight.flight.airport.origin.position.region.city}}({{objFlight.flight.airport.origin.code.iata}}-”

显然,结果并不理想,因为它应该是飞行的实际时间的列表。我不确定从这里去哪里。

感谢您的帮助。

0 个答案:

没有答案