如何刮取由Javascript动态生成的表

时间:2018-06-04 13:53:00

标签: r web web-scraping rvest httr

我是R的初学者,并试图从不同的网站提取不同的表格数据。我能够执行基本的数据抓取,但是在尝试从下表中提取数据时我陷入困境。

url:https://www.nseindia.com/live_market/dynaContent/live_watch/equities_stock_watch.htm?cat=N

我尝试使用l.remove()& html_read函数使用css和xpath,但它不返回值。谁能告诉我如何继续?

1 个答案:

答案 0 :(得分:2)

所以你面临的问题是rvest会读取页面的来源,但它不会在页面上执行javascript。该表是通过在加载源后执行javascript 创建的。

您最好的选择是研究RSelenium。这是因为RSelenium实际启动并驱动浏览器窗口,一旦执行了javascript,您就可以查询当前的来源(如果您在Chrome中右键单击并选择Inspect,您会看到什么)。

但是,RSelenium是从CRAN中提取的,因为某些依赖项是从CRAN中提取的,因此您可能需要使用MRAN来安装它。