使用R刮除具有“显示更多”按钮的表

时间:2019-05-04 03:45:05

标签: r selenium web-scraping rvest httr

我正试图从Investing.com获取一些经济数据。这是我要提取的非农业工资单的链接。 https://ca.investing.com/economic-calendar/nonfarm-payrolls-227

如您所见,单击“显示更多”按钮后,将加载更多行。我想抓取表中所有隐藏的数据。

如果您检查页面,则可以很容易地看到与每一行关联的html标记。我想知道是否有一种不使用R硒就可以抓取数据的简便方法。

enter image description here

这是我当前的代码,该代码仅返回首次进入网站时最初显示的6行。

x = read_html("https://ca.investing.com/economic-calendar/nonfarm-payrolls-227")%>%
  html_nodes('table')%>%.[1]%>%html_table(fill = T)

print(x)
# Release Date  Time Actual Forecast Previous   
1 May 03, 2019  (Apr) 08:30   263K     181K     189K NA
2 Apr 05, 2019  (Mar) 08:30   196K     175K      33K NA
3 Mar 08, 2019  (Feb) 09:30    20K     181K     311K NA
4 Feb 01, 2019  (Jan) 09:30   304K     165K     222K NA
5 Jan 04, 2019  (Dec) 09:30   312K     178K     176K NA
6 Dec 07, 2018  (Nov) 09:30   155K     200K     237K NA

0 个答案:

没有答案