Question

我正在尝试使用rvest软件包对网站进行抓取。

此链接将用作示例：https://www.globalinnovationindex.org/analysis-indicator

目标是从所有年份（选择id =“ ctl29_lstYear”）和所有索引（选择id =“ ctl29_lstIndex”）中抓取表格。我已经有一个片段可以抓取并整理格式表并将其转换为列表（是的……它们不是HTML <table>），但是我不能使用follow_link()或{{1} }浏览年份和索引的选项，并将它们全部刮掉。

在此示例中，我们使用一对“选项”（year =“ 2013”和index =“创新效率比”）：

因此，我查看了set_values()文档，并发现了以下示例：

rvest::set_values()

然后我尝试了这个：

    search <- html_form(read_html("http://www.google.com"))[[1]]
    set_values(search, q = "My little pony")

为什么我要修改的字段名称后面的'='意外？ > session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]] > set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio")) Error: unexpected '=' in "set_values(session,list(ctl29$lstYear ="是解决此类问题的最佳选择吗？

如何使用R从HTML的“选择”字段的每个“选项”中抓取所有内容？

0 个答案: