R:rvest包read_html()函数在同一个URL

时间:2017-01-26 12:53:32

标签: r parsing web-scraping amazon rvest

具体而言,我试图用R中的rvest库解析产品的亚马逊评论。

reviews_url <- "https://www.amazon.com/Magic-Bullet-Blender-Small-Silver/product-reviews/B012T634SM/ref=cm_cr_getr_d_paging_btm_1?ie=UTF8&reviewerType=all_reviews&pageNumber=1"

amazon_review <- read_html(reviews_url)

reviewRaw <- amazon_review %>%
        html_nodes(".review-text") %>%
        html_text()

我面临的问题是,如果我重新运行该函数,我有时会得到不同的输出,就像它以某种方式解析了一个不同的网站。有时它是正确的输出。 我怎样才能解决这个问题? 我已经尝试过使用RSelenium软件包并使用WebDriver加载页面并给它加载时间,但它没有帮助。

有趣的是,输出在两个替代方案之间交替出现。因此,要么正确解析评论,要么不解析。然而,错误的选择总是看起来一样。 那里肯定有一些模式,但我无法理解这里可能出现的问题。它可能需要对亚马逊上的评论加载方式做些什么?

无论如何,我很感激有任何想法来解决这个问题。

最好的问候。

0 个答案:

没有答案