使用R刮刮IMDb用户评论,只得到第一次回顾

时间:2016-12-20 15:43:27

标签: r web-scraping r-markdown

我是网络抓取的新手,希望将其用于情感分析。这是我使用的代码,它只会在第一次审核时返回...提前感谢!

library(rvest)
library(XML)
library(plyr)
HouseofCards_IMDb <- read_html("http://www.imdb.com/title/tt1856010/reviews?ref_=tt_urv")

#Used SelectorGadget as the CSS Selector
reviews <- HouseofCards_IMDb %>% html_nodes("#pagecontent") %>%
html_nodes("div+p") %>%
html_text()

#perfrom data cleaning on user reviews
reviews <- gsub("\r?\n|\r", " ", reviews) 
reviews <- tolower(gsub("[^[:alnum:] ]", " ", reviews))
reviews <- paste(reviews, collapse = "") 
print(reviews)
write(reviews, "IMDb.CSV")

1 个答案:

答案 0 :(得分:0)

根据Chromium的F12,第二次审核的XPath是: // * [@ ID = “tn15content”] / P [2] /文本()

第三次审查是: // * [@ ID = “tn15content”] / P [5] /文本()[1]

您可以使用XML :: htmlParse函数来解析页面,并使用XML :: xpathSApply函数来提取DOM的正确节点(显然,对于审阅文本,这是

// * [@ ID = “tn15content”] / P /文本()