我正在尝试抓取以下网页:
http://www.tiendasjumbo.co/televisores-y-sonido/televisores/?PS=24&O=OrderByPriceDESC#1
你可以看到它的页面编号为1(#1),我想要删除页码1,2和3,并在R中使用以下代码:
ptv <- matrix(, nrow = 5, ncol = 1)
tv <- matrix(, nrow = 5, ncol = 1)
for( j in 1:5){
doc <- read_html(paste0("http://www.tiendasjumbo.co/televisores-y-sonido/televisores/?PS=24&O=OrderByPriceDESC#',j,'"))
ptv[j,1] <- toString(xml_find_all(doc, xpath="//span[@class='bestPrice']"))
tv[j,1] <- toString(xml_find_all(doc, xpath="//div[@class='item-title']"))
}
即使我在代码中手动更改了页码(没有循环),我也总是有第1页的信息。如何获取第2页和第3页的信息?我做错了什么?