我正在尝试获取从尼日利亚各省搜索西联汇款网站的网址。特别是,我想在webpage之后搜索该省的向量,并进行每次搜索以保留相应的URL,然后对每个获得的链接进行网络抓取。我知道如何执行第二步,但不知道第一步。特别是我的代码是
#install.packages("selectr")
#install.packages("xml2")
library(selectr)
library(xml2)
library(rvest)
library(xlsx)
provinces = as.vector(read.xlsx("provinces.xls", 1)[,1])
URL <- "https://locations.westernunion.com/search/nigeria/"
webpage <- read_html(URL)
但是现在我不知道如何从前面提到的媒介中继续搜索和存储我每个省的URL。
答案 0 :(得分:0)
我们可以获得href
属性,该属性以类"Nigeria"
的{{1}}标签的div
结尾
info
但是,我认为这只是URL的一部分,您需要在每个提取的部分中添加library(rvest)
library(dplyr)
URL <- "https://locations.westernunion.com/search/nigeria/"
URL %>%
read_html() %>%
html_nodes("div.info a") %>%
html_attr("href") %>%
grep("Nigeria$", ., value = TRUE)
#[1] "/ng/ebonyi/onueke/47908be48d424b6fba108b020c60b517?loc=+Nigeria"
#[2] "/ng/plateau/plateau/393aa00a34ded9201b3c0c2fd70c02b3?loc=+Nigeria"
#[3] "/ng/bayelsa/otuoke/046d3ae90f58169a7cc896b96e9ccfac?loc=+Nigeria"
#[4] "/ng/ogun/abeokuta/fab00c55961bc48312029f13e7b75277?loc=+Nigeria"
#[5] "/ng/ogun/idi-iroko/63803a3c50d4cb4b44f473cfd8cb96b1?loc=+Nigeria"
#[6] "/ng/-/akwaibom/4c1dd6c2953a0d396500157d97ddf0ca?loc=+Nigeria"
#....
以获得确切的URL
"https://locations.westernunion.com"
,现在这些URL可以用于流程的第2步。