我目前正在处理这个网站:
https://uws-community.symplicity.com/index.php?s=student_group
因此网站上的每个俱乐部都有一个特定的ID,并且还具有“更多信息”链接。我已经找到了一种方法,可以从div.grpl-grp.clearfix类中抓取每个ID,但是我想使用这些ID从某个元素的“更多信息”链接(例如fb链接)中抓取数据具有特定ID。
这样做的语法是什么?
答案 0 :(得分:1)
“更多信息”文本具有“ grpl-moreinfo”类,并且链接位于id
标记中。所以我们可以做
<a>
还可以通过以下方式在一链式操作中完成:
library(rvest)
url <- 'https://uws-community.symplicity.com/index.php?s=student_group'
page <- html_session(url)
html_nodes(page, "li.grpl-moreinfo a") %>% html_attr("href")
#[1] "?mode=form&id=5bf9ea61bc46eaeff075cf8043c27c92&tab=profile"
#[2] "?mode=form&id=17e4ea613be85fe019efcf728fb6361d&tab=profile"
#[3] "?mode=form&id=d593eb48fe26d58f616515366a1e677b&tab=profile"
...