Question

我尝试从naver新闻（韩国新闻平台）中抓取数据。抓取新闻本身很容易，但是，我未能抓取评论的数量。

这是google chrome开发人员工具的图片。我要抓取的是和之间的数字（即“ 695”）这是新闻的地址（https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1）

enter image description here

我尝试过；

url_test <- "https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1"

test_news <- read_html(url_test)
test_news %>%
  html_nodes(".content") %>%
  html_nodes(".article_body") %>%
  html_nodes(".end_btn") %>%
  html_nodes("._reactionModule") %>%
  html_nodes(".u_likeit_list")
good <- reaction[1] #why 0?
good %>% html_text()`

，返回值为“ 0”

我找到了一个处理类似问题（How to use rvest to web crawling correctly?）的线程并进行了尝试，但是，它对我不起作用。

我尝试的方法如下

test_news %>%
  html_node(".u_likeit_layer") %>%
  html_text() %>% 
  stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
  as.numeric()

和

test_news %>%
  html_nodes(css = ".u_likeit_layer") %>%
  html_children() %>% 
  html_text(trim = T) %>% 
  str_extract("[0-9]+") %>% 
  as.numeric()

所有代码都返回“ 0”，而我希望爬网编号跨度。我还尝试了Xpath，CSS来导航地址，但是失败了！

预先感谢您的帮助！ ;）祝你有美好的一天。

无法使用rvest软件包抓取数字数据

0 个答案: