我是网络抓取的新手,希望将其用于情感分析。这是我使用的代码,它只会在第一次审核时返回...提前感谢!
library(rvest)
library(XML)
library(plyr)
HouseofCards_IMDb <- read_html("http://www.imdb.com/title/tt1856010/reviews?ref_=tt_urv")
#Used SelectorGadget as the CSS Selector
reviews <- HouseofCards_IMDb %>% html_nodes("#pagecontent") %>%
html_nodes("div+p") %>%
html_text()
#perfrom data cleaning on user reviews
reviews <- gsub("\r?\n|\r", " ", reviews)
reviews <- tolower(gsub("[^[:alnum:] ]", " ", reviews))
reviews <- paste(reviews, collapse = "")
print(reviews)
write(reviews, "IMDb.CSV")
答案 0 :(得分:0)
根据Chromium的F12,第二次审核的XPath是: // * [@ ID = “tn15content”] / P [2] /文本()
第三次审查是: // * [@ ID = “tn15content”] / P [5] /文本()[1]
您可以使用XML :: htmlParse函数来解析页面,并使用XML :: xpathSApply函数来提取DOM的正确节点(显然,对于审阅文本,这是
// * [@ ID = “tn15content”] / P /文本()