使用rvest刮掉GoodReads页面

时间:2015-03-11 21:14:20

标签: html r web-scraping rvest

我正试图在好读时获取评分和评论数字,但获得NA结果。这是为什么?

SelectorGadget在悬停时找到平均评级的“跨度”,但在底部找不到“有效路径”。

在其他网站(例如IMDB,theatlantic.com)上使用相同的方法可以正常工作。

这是我的代码和结果(我也尝试用html_tag替换html_text)

 Rating<- html("http://www.goodreads.com/book/show/22444789-delicious-foods")

Rating %>%
 html_node("span span") %>%
 html_text () %>%
 as.numeric()
[1] NA
Warning message:
In function_list[[k]](value) : NAs introduced by coercion

1 个答案:

答案 0 :(得分:1)

我在使用SELECTGadget和Goodreads网站时没有取得任何成功,但有时您只需查看html源代码并找到您正在寻找的内容。

在这种情况下,您可以使用.average类选择器:

Rating %>%
 html_node(".average") %>%
 html_text %>%
 as.numeric