我尝试从naver新闻(韩国新闻平台)中抓取数据。 抓取新闻本身很容易,但是,我未能抓取评论的数量。
这是google chrome开发人员工具的图片。 我要抓取的是和之间的数字(即“ 695”) 这是新闻的地址(https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1)
我尝试过;
url_test <- "https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=003&aid=0008965477&date=20181217&type=1&rankingSectionId=100&rankingSeq=1"
test_news <- read_html(url_test)
test_news %>%
html_nodes(".content") %>%
html_nodes(".article_body") %>%
html_nodes(".end_btn") %>%
html_nodes("._reactionModule") %>%
html_nodes(".u_likeit_list")
good <- reaction[1] #why 0?
good %>% html_text()`
,返回值为“ 0”
我找到了一个处理类似问题(How to use rvest to web crawling correctly?)的线程并进行了尝试,但是,它对我不起作用。
我尝试的方法如下
test_news %>%
html_node(".u_likeit_layer") %>%
html_text() %>%
stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
as.numeric()
和
test_news %>%
html_nodes(css = ".u_likeit_layer") %>%
html_children() %>%
html_text(trim = T) %>%
str_extract("[0-9]+") %>%
as.numeric()
所有代码都返回“ 0”,而我希望爬网编号跨度。 我还尝试了Xpath,CSS来导航地址,但是失败了!
预先感谢您的帮助! ;) 祝你有美好的一天。