无法使用rvest软件包抓取数字数据

时间:2018-12-17 04:26:26

标签: html r web-crawler rvest

我尝试从naver新闻(韩国新闻平台)中抓取数据。 抓取新闻本身很容易,但是,我未能抓取评论的数量。

这是google chrome开发人员工具的图片。 我要抓取的是和之间的数字(即“ 695”) 这是新闻的地址(https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1

enter image description here

我尝试过;

url_test <- "https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1"

test_news <- read_html(url_test)
test_news %>%
  html_nodes(".content") %>%
  html_nodes(".article_body") %>%
  html_nodes(".end_btn") %>%
  html_nodes("._reactionModule") %>%
  html_nodes(".u_likeit_list")
good <- reaction[1] #why 0?
good %>% html_text()`

,返回值为“ 0”

我找到了一个处理类似问题(How to use rvest to web crawling correctly?)的线程并进行了尝试,但是,它对我不起作用。

我尝试的方法如下

test_news %>%
  html_node(".u_likeit_layer") %>%
  html_text() %>% 
  stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
  as.numeric()

test_news %>%
  html_nodes(css = ".u_likeit_layer") %>%
  html_children() %>% 
  html_text(trim = T) %>% 
  str_extract("[0-9]+") %>% 
  as.numeric()

所有代码都返回“ 0”,而我希望爬网编号跨度。 我还尝试了Xpath,CSS来导航地址,但是失败了!

预先感谢您的帮助! ;) 祝你有美好的一天。

0 个答案:

没有答案