我刚刚开始学习R并且在尝试我的第一次非教程尝试时遇到了一些问题。我通过本教程学习了基本的R:https://stat4701.github.io/edav/2015/04/02/rvest_tutorial/
我想通过以下链接抓取评论文字和星级评分:https://www.wildberries.ru/catalog/4234190/detail.aspx?targetUrl
我创建了以下程序来尝试抓取我想要的两个项目:
library('rvest')
review <- read_html("https://www.wildberries.ru/catalog/4234190/detail.aspx?targetUrl")
body <- review %>% html_nodes(".body") %>% html_text()
body
rating <- review %>% html_nodes("#rating div") %>% html_attr("class")
rating
然而,这个程序返回的唯一的东西是两个实例:character(0),我不知道如何解决这个问题。这是如此简单的刮擦,我不确定这是如何工作的,我不相信Javascript是罪魁祸首,因为所有的评论都是在打开页面时加载到hrml中而不是以后加载到hrml中。
非常感谢任何和所有帮助!