Question

我是网络抓取的新手，希望将其用于情感分析。这是我使用的代码，它只会在第一次审核时返回...提前感谢！

library(rvest)
library(XML)
library(plyr)
HouseofCards_IMDb <- read_html("http://www.imdb.com/title/tt1856010/reviews?ref_=tt_urv")

#Used SelectorGadget as the CSS Selector
reviews <- HouseofCards_IMDb %>% html_nodes("#pagecontent") %>%
html_nodes("div+p") %>%
html_text()

#perfrom data cleaning on user reviews
reviews <- gsub("\r?\n|\r", " ", reviews) 
reviews <- tolower(gsub("[^[:alnum:] ]", " ", reviews))
reviews <- paste(reviews, collapse = "") 
print(reviews)
write(reviews, "IMDb.CSV")

Answer 1

根据Chromium的F12，第二次审核的XPath是： // * [@ ID = “tn15content”] / P [2] /文本（）

第三次审查是： // * [@ ID = “tn15content”] / P [5] /文本（）[1]

您可以使用XML :: htmlParse函数来解析页面，并使用XML :: xpathSApply函数来提取DOM的正确节点（显然，对于审阅文本，这是

// * [@ ID = “tn15content”] / P /文本（）

使用R刮刮IMDb用户评论，只得到第一次回顾

1 个答案: