网络抓取多个页面

时间:2019-08-01 20:12:31

标签: r rvest purrr

我正在尝试创建可通过网站获得的项目列表。但是,我不明白为什么下面的代码似乎不起作用。 第一步,创建一个循环浏览页面,第二步,使用“ selectorGadget”查找Html元素并将表标题保存在数据框中。

library(rvest)
library(dplyr)
library(purrr)

url_base<- "http://www.fao.org/forestry/vrd/data/by/funders#arrangements/q//t/2006-2028/f/585/r/all/a/0-1104/p/%d"


#function to loop through multiple pages
map_df(1:4, function(i){
page <- read_html(sprintf(url_base, i))
data.frame(Title = html_text(html_nodes(page, "h5")))
}) -> reddprojects

我想提取所有项目和时间表的列表。例如。此网页上的代码:           http://www.fao.org/forestry/vrd/data/by/funders#arrangements/q//t/2006-2028/f/585/r/all/a/0-1104/p/1  应该以以下格式返回所有项目的列表。例如,第一行应如下所示:

Title                                                     Period

A regional focus on sustainable.....                     2010 - 2010

0 个答案:

没有答案