如何使用R从HTML的“选择”字段的每个“选项”中抓取所有内容?

时间:2018-08-13 15:23:37

标签: html r web-scraping rvest selectnodes

我正在尝试使用rvest软件包对网站进行抓取。

此链接将用作示例:https://www.globalinnovationindex.org/analysis-indicator

目标是从所有年份(选择id =“ ctl29_lstYear”)和所有索引(选择id =“ ctl29_lstIndex”)中抓取表格。我已经有一个片段可以抓取并整理格式表并将其转换为列表(是的……它们不是HTML <table>),但是我不能使用follow_link()或{{1} }浏览年份和索引的选项,并将它们全部刮掉。

在此示例中,我们使用一对“选项”(year =“ 2013”​​和index =“创新效率比”):

因此,我查看了set_values()文档,并发现了以下示例:

rvest::set_values()

然后我尝试了这个:

    search <- html_form(read_html("http://www.google.com"))[[1]]
    set_values(search, q = "My little pony")

为什么我要修改的字段名称后面的'='意外? > session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]] > set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio")) Error: unexpected '=' in "set_values(session,list(ctl29$lstYear =" 是解决此类问题的最佳选择吗?

0 个答案:

没有答案