使用 R 库 rvest 进行 Goodread 网页抓取

时间:2021-04-12 19:23:54

标签: r web-scraping rvest

我正在尝试使用 rvest 库在网上抓取 Goodreads 对“一点生活”一书的评分和评论。 我编写了下面的代码,它运行良好,但它只抓取了显示的前 30 个结果。如果我点击“下一页”看到下面的 30(31 到 60)页的 url 保持不变,所以我不能使用这种方法来抓取它们。 你有什么建议吗? 谢谢!

library(rvest)
library(tidyverse)

url <- ("https://www.goodreads.com/book/show/22822858-a-little-life")

all_html <- read_html(url)

# Get the username
username <- all_html %>%
  html_nodes("div#bookReviews") %>%
  html_nodes("div.left.bodycol") %>% 
  html_nodes("div.reviewHeader.uitext.stacked") %>% 
  html_nodes('.user') %>%
  html_text()
```

0 个答案:

没有答案