我正在尝试使用“ rvest”从以下位置获取产品价格:https://www.lowes.com/pl/Lawn-garden-hand-tools-Outdoor-tools-equipment-Outdoors/4294612737?goToProdList=true&int_cmp=LawnGardenHandTools:C:Outdoors:Merch:shop_all_copy。我正在使用以下代码:
library(rvest)
library(tidyverse)
url <- "https://www.lowes.com/pl/Lawn-garden-hand-tools-Outdoor-tools-equipment-Outdoors/4294612737?goToProdList=true&int_cmp=LawnGardenHandTools:C:Outdoors:Merch:shop_all_copy"
html <- read_html(url)
price <- html %>%
html_node('body') %>%
xml_find_all("//span[contains(@class, 'h5 js-price v-spacing-mini art-pl-price')]") %>%
html_text() %>%
data.frame()
但是-这将返回一个空的数据帧。
任何建议将不胜感激。
答案 0 :(得分:3)
rvest
只能抓取静态HTML内容。
大多数现代商业网站都使用JavaScript动态生成的动态Web内容。
为了抓取此类网站,您首先需要使该网站生成您要查找的HTML内容,然后您可以使用rvest
对其进行抓取。
为此,您需要使用RSelenium或Splash之类的网络浏览器仿真器,以便您可以在站点中移动并以编程方式查询数据。
RSelenium需要安装Docker Selenium server。也建议将其用于Splash。