使用'rvest'提取链接

时间:2016-02-06 22:04:58

标签: r web-scraping yelp rvest

我正在尝试从Yelp中删除数据。一步是从每个餐馆提取链接。例如,我搜索纽约的餐馆并获得一些结果。然后我想提取Yelp在第1页上推荐的所有10家餐厅的链接。这是我尝试过的:

library(rvest)     
page=read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')

但代码总是返回'NA'。任何人都可以帮助我吗?谢谢!

2 个答案:

答案 0 :(得分:22)

library(rvest)     
page <- read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name") %>% html_attr('href')

希望这会简化您的问题

答案 1 :(得分:5)

我也能够清除从上面对我来说很吵的结果

links <- page %>% html_nodes("a") %>% html_attr("href")

具有简单的正则表达式字符串匹配

links <- links[which(regexpr('common-url-element', links) >= 1)]