我的网页抓取需要帮助....有人能救我吗?
为此目的,我正在尝试获取此网页 https://www.whed.net/results_institutions.php 中的大学列表,我正在使用以下代码:
library(rvest)
library(dplyr)
whed_afg <- "https://www.whed.net/results_institutions.php"
whed_afg1 <- read_html(whed_afg)
whed_afg1
str(whed_afg1)
univ_afg1 = whed_afg1 %>% html_nodes("#results .fancybox\\.iframe") %>% html_text()
univ_afg1
我在 html_nodes 上放了双 "" 因为它给了我错误:错误:'.'是字符串中无法识别的转义字符,以 ""#results .fancybox." 开头。
谁能帮帮我,我不知道我做错了什么。
谢谢大家, 里卡多
答案 0 :(得分:1)
我想您的起始网址可能有误?或者当我使用您的 url 重定向时,它在登录之后。我在以下 url 上看到了完整的大学列表,并有不同的类可供选择。这些可以按感兴趣的国家/地区拆分。
library(rvest)
url <- "https://www.iau-aiu.net/List-of-IAU-Members?lang=en"
universities <- read_html(url) %>% html_nodes('.spip_out') %>% html_text()
print(universities)