使用rvest刮取餐馆长/拉数据

时间:2018-02-25 19:33:55

标签: r web-scraping latitude-longitude rvest tripadvisor

我目前正在尝试从tripadvisor中获取lat / long数据。 我可以在页面的源代码中看到经度和纬度但我无法抓住它。 这是我的代码:

        library(rvest) 
    WS <- "https://www.tripadvisor.fr/Restaurant_Review-g187147-d10514254-Reviews-Les_Apotres_de_Pigalle-Paris_Ile_de_France.html"

link <- read_html(WS)

lat <- link %>%  html_node(".mapContainer ") %>% html_attr("data-lat")

当我运行此代码时,我有一个&#34; NA&#34;。

任何帮助都会很棒!感谢

1 个答案:

答案 0 :(得分:2)

您可以尝试通过xpath

进行刮擦

对于纬度

"substring-after(substring-before(substring-before(substring-after(normalize-space(//script[contains(.,'lat: ')]), '= {'), ', zoom:'), ','), 'lat: ')"

对于经度

"substring-after(substring-before(substring-after(normalize-space(//script[contains(.,'lat: ')]), '= {'), ', zoom:'), ' lng: ')"