使用rvest

时间:2016-11-24 06:00:18

标签: r web-scraping text-mining

我正在尝试从“thehomedepot”网站检索特定产品的客户评论。我用rvest包这样做了。我能够检索评论,但它只是前10-15条评论而不是更多。我这么久以来一直在努力。我无法解决这个问题。

评论分为多个页面。我试图逐页检索文本,但是当我尝试检查页面元素时,每个页面的所有评论都在相同的连续代码中。每页都没有区别,也就是说页面编号也没有。元素看起来像“div”和“span”标签: pic of the html code of the page

我的代码如下所示:

url <- "http://www.homedepot.com/p/Whirlpool-33-in-W-21-2-cu-ft-Side-by-   Side-Refrigerator-in-Monochromatic-Stainless-Steel WRS322FDAM/204099753#customer_reviews" 
home_url <-  read_html(url) %>%
html_nodes("#customer_reviews, .section") 
review <- home_url %>%
html_nodes('#BVRRSourceID, .span') %>%
html_text()
review.text1 <- gsub("[^A-Za-z\\-]|\\.+", " ", review)
review.text2 <- gsub("\n|[ \t]+", " ", review.text1)  
review.text3 <- gsub("Rated out of by", " ", review.text2,ignore.case=T)
review.final <- gsub("August - - bvseo-cps-pl-PRR document getElementById  BVRRContentValidationID style display none - - T - bvseo lps prod bvrr vn prr cp- bvpage co hasreviews tv tr loc en US sid prod sort default" , "",review.text3,ignore.case=T)
print(review.final)

有人可以帮帮我吗?

示例输出如下所示

审稿人AlexBigPants最糟糕的送货服务 - 价格实惠的冰箱交付团队非常糟糕,让购买过程成为一场噩梦本地商店非常关注收拾松懈我的好友Mike在安装这些产品方面提供了巨大的帮助如果您想要一个高质量的产品.....

0 个答案:

没有答案