我正在尝试抓取一个网站,该网站不会为我想要抓取的不同页面生成特定的网址。这样做的原因是通过在某些组合框上选择不同的选项来生成每个页面,然后生成所需的表格。 有可能用R和rvest刮掉这些表吗?
编辑:
以下是具体示例的链接: http://www.odepa.gob.cl/precios/precios-al-consumidor-en-linea
答案 0 :(得分:0)
您可以使用selenium webdriver来控制html页面中的点击次数和动态数据。
答案 1 :(得分:0)
所以基本上我们在这里处理JS(javascript) - 渲染内容。 Selenium或Phantomjs(无头chrome)在处理JS或浏览器事件时效果很好但是如果你想处理这个就是R那么就有一个R包来处理这些东西。
V8 R软件包构建在C ++库之上,在R
中提供完全独立的JavaScript引擎
一些有用的链接 - https://cran.r-project.org/web/packages/V8/vignettes/v8_intro.html https://www.r-bloggers.com/scraping-javascript-rendered-web-content-using-r/
希望它有所帮助!