刮多页

时间:2019-01-21 05:29:21

标签: r web-scraping rvest

我想知道是否有人可以帮助我弄清楚为什么我的脚本没有通过所有检查页面进行解析,以及重新格式化当前输出的格式,其中每个节点的内容都堆积在同一列中。相反,我希望输出中每个节点都有一个不同的列。

当前输出:

  1. 8/10

  2. 精彩的表演,下方带有更强烈的信息

  3. 2016年10月27日

  4. 我喜欢这个节目。这是一部轻松愉快的喜剧片。...

我希望每一个都在各自的列中,以便评分,标题,日期和评论都具有自己的对应列。

任何有关解决此问题的建议将不胜感激

library(rvest)

Website <- lapply(paste0('https://www.imdb.com/title/tt4955642/reviews='),
           function(url){
             url %>% read_html() %>% 
               html_nodes(".review-date,.rating-other-user-rating,.title,.show-more__control") %>% 
               html_text() %>%
               gsub('[\r\n\t]', '', .)

           })

Final <- data.frame(Website)

0 个答案:

没有答案