如何在rvest中跟随具有特定ID的元素链接?

时间:2018-08-27 04:57:21

标签: r web-scraping data-science rvest

我目前正在处理这个网站:

https://uws-community.symplicity.com/index.php?s=student_group

因此网站上的每个俱乐部都有一个特定的ID,并且还具有“更多信息”链接。我已经找到了一种方法,可以从div.grpl-grp.clearfix类中抓取每个ID,但是我想使用这些ID从某个元素的“更多信息”链接(例如fb链接)中抓取数据具有特定ID。

这样做的语法是什么?

1 个答案:

答案 0 :(得分:1)

“更多信息”文本具有“ grpl-moreinfo”类,并且链接位于id标记中。所以我们可以做

<a>

还可以通过以下方式在一链式操作中完成:

library(rvest)

url <- 'https://uws-community.symplicity.com/index.php?s=student_group'
page <- html_session(url)
html_nodes(page, "li.grpl-moreinfo a") %>% html_attr("href")

#[1] "?mode=form&id=5bf9ea61bc46eaeff075cf8043c27c92&tab=profile"
#[2] "?mode=form&id=17e4ea613be85fe019efcf728fb6361d&tab=profile"
#[3] "?mode=form&id=d593eb48fe26d58f616515366a1e677b&tab=profile"
...