您输入了错误的元素且结果不匹配吗?

时间:2017-08-01 13:53:58

标签: r parsing web-scraping web-crawler amazon

我正在抓取代码中的网址。

所有元素应该相同,

我有33条评论,135颗星和41条日期。

我做错了什么?

我认为其中33个应该是正常的。

我该如何解决?

#install.packages(c("rvest","httr"))
library(rvest)
library(httr)

all.reviews <- c()
all.stars <-c()
all.dates <-c()

for (page in 1:4){
  url='https://www.amazon.com/ggplot2-Elegant-Graphics-Data-Analysis/product-reviews/0387981403/ref=cm_cr_arp_d_paging_btm_2?ie=UTF8&showViewpoints=1&sortBy=helpful&pageNumber='
  url_page <- paste0(url,page)
  reading_html <- read_html(url_page)
  text_nodes <- html_nodes(reading_html, 'span.review-text')
  review <- html_text(text_nodes)
  all.reviews<-c(all.reviews, review)

  text_date <- html_nodes(reading_html, 'span.review-date')
  date <- html_text(text_date)
  all.dates<-c(all.dates, date)

  #span.a-icon-alt

  text_star <- html_nodes(reading_html, 'span.a-icon-alt')
  star <- html_text(text_star)
  all.stars<-c(all.stars, star)

  print(page)
}

1 个答案:

答案 0 :(得分:0)

原来的答案已被删除,以回应@hrbrmstr提出的关于刮取亚马逊的问题。