我正在用rvest刮报纸文章。问题是,即使它们来自同一网站,我也只能抓取某些文章的正文,而不能抓取其他文章。
例如,以下代码将我想要的文本抓取:
test_1 <- read_html("https://www.dn.se/nyheter/sverige/V-i-Varmland-kastar-in-nytt-namn-men-stodet-starks-for-Nooshi-Dadgostar") %>%
html_node('.article__body') %>% html_text() %>% str_trim()
但是以下代码返回NA:
test_2 <- read_html("https://www.dn.se/nyheter/sverige/Regeringen-vill-att-skolor-ska-fa-satta-betyg-i-arskurs-4") %>%
html_node('.article__body') %>% html_text() %>% str_trim()
这是什么原因?我在CSS选择器中找不到任何明显的区别,所以我不明白问题是什么。
有解决方案吗?
提前谢谢!