使用R从网页中提取HyperLinks

时间:2016-05-22 21:05:01

标签: r web-scraping

需要帮助从下面的页面中提取每个产品的超链接(如费城:One Liberty观景台):

https://www.getyourguide.com/s/?q=Philadelphia

我应用了一般方法,如:

url <- "http://www.viator.com/search/Philadelphia"
doc <- htmlParse(url)
links <- xpathSApply(doc, "//a/@href") 

但我收到了错误。 我正在寻找像

这样的输出数据框架
product1: Philadelphia: One Liberty Observation Deck 
link1 : "https://www.getyourguide.com/philadelphia-l60/philadelphia-one-liberty-observation-deck-t61908/"

product2 : Philadelphia Hop-on Hop-off Bus Tour Tickets
link2 : "https://www.getyourguide.com/philadelphia-l60/philadelphia-hop-on-hop-off-bus-tour-t47403/"

同样,我对所有编程都很陌生,因此我们将非常感谢任何帮助或代码片段。

1 个答案:

答案 0 :(得分:1)

您要查找的这些链接不在源页面的代码中,它们是从JSON文件加载的javascript 你可以在这里看到https://www.getyourguide.com/s/search.json?q=Philadelphia

试试这段代码你应该得到链接的载体

library(RCurl)
library(XML)
url<-"https://www.getyourguide.com/s/search.json?q=Philadelphia"
url2<-getURL(url)
parsed<-htmlParse(url2)
links<-xpathSApply(parsed,path = "//a",xmlGetAttr,"href")