Question

具体而言，我试图用R中的rvest库解析产品的亚马逊评论。

reviews_url <- "https://www.amazon.com/Magic-Bullet-Blender-Small-Silver/product-reviews/B012T634SM/ref=cm_cr_getr_d_paging_btm_1?ie=UTF8&reviewerType=all_reviews&pageNumber=1"

amazon_review <- read_html(reviews_url)

reviewRaw <- amazon_review %>%
        html_nodes(".review-text") %>%
        html_text()

我面临的问题是，如果我重新运行该函数，我有时会得到不同的输出，就像它以某种方式解析了一个不同的网站。有时它是正确的输出。我怎样才能解决这个问题？我已经尝试过使用RSelenium软件包并使用WebDriver加载页面并给它加载时间，但它没有帮助。

有趣的是，输出在两个替代方案之间交替出现。因此，要么正确解析评论，要么不解析。然而，错误的选择总是看起来一样。那里肯定有一些模式，但我无法理解这里可能出现的问题。它可能需要对亚马逊上的评论加载方式做些什么？

无论如何，我很感激有任何想法来解决这个问题。

最好的问候。

R：rvest包read_html（）函数在同一个URL

0 个答案: