我正在尝试使用rvest
软件包对网站进行抓取。
此链接将用作示例:https://www.globalinnovationindex.org/analysis-indicator
目标是从所有年份(选择id =“ ctl29_lstYear”)和所有索引(选择id =“ ctl29_lstIndex”)中抓取表格。我已经有一个片段可以抓取并整理格式表并将其转换为列表(是的……它们不是HTML <table>
),但是我不能使用follow_link()
或{{1} }浏览年份和索引的选项,并将它们全部刮掉。
在此示例中,我们使用一对“选项”(year =“ 2013”和index =“创新效率比”):
因此,我查看了set_values()
文档,并发现了以下示例:
rvest::set_values()
然后我尝试了这个:
search <- html_form(read_html("http://www.google.com"))[[1]]
set_values(search, q = "My little pony")
为什么我要修改的字段名称后面的'='意外? > session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]]
> set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio"))
Error: unexpected '=' in "set_values(session,list(ctl29$lstYear ="
是解决此类问题的最佳选择吗?