具体而言,我试图用R中的rvest库解析产品的亚马逊评论。
reviews_url <- "https://www.amazon.com/Magic-Bullet-Blender-Small-Silver/product-reviews/B012T634SM/ref=cm_cr_getr_d_paging_btm_1?ie=UTF8&reviewerType=all_reviews&pageNumber=1"
amazon_review <- read_html(reviews_url)
reviewRaw <- amazon_review %>%
html_nodes(".review-text") %>%
html_text()
我面临的问题是,如果我重新运行该函数,我有时会得到不同的输出,就像它以某种方式解析了一个不同的网站。有时它是正确的输出。 我怎样才能解决这个问题? 我已经尝试过使用RSelenium软件包并使用WebDriver加载页面并给它加载时间,但它没有帮助。
有趣的是,输出在两个替代方案之间交替出现。因此,要么正确解析评论,要么不解析。然而,错误的选择总是看起来一样。 那里肯定有一些模式,但我无法理解这里可能出现的问题。它可能需要对亚马逊上的评论加载方式做些什么?
无论如何,我很感激有任何想法来解决这个问题。
最好的问候。