我正试图抓取我自己的LinkedIn页面以获取数据,以便稍后进入Rmarkdown简历。
我从this gist开始。但是,它已经2年了,不再适用了。 这一部分似乎有效:
user_url <- "https://www.linkedin.com/in/___yourprofilepagehere____/"
username <- 'your_login'
password <- 'your_password'
library(rvest)
linkedin_url <- "https://linkedin.com/"
pgsession <- html_session(linkedin_url)
pgform <- html_form(pgsession)[[1]]
filled_form <- set_values(pgform,
session_key = username,
session_password = password)
submit_form(pgsession, filled_form)
pgsession <- jump_to(pgsession, user_url)
page_html <- read_html(pgsession)
用page_html
检查html_text()
告诉我们所需信息在对象中。
但是,我不知道调用哪些节点来提取该数据。原始代码不再有效。
我尝试了用于Chrome的SelectorGadget插件,以及检查页面以查找相关的CSS节点或xpath,但每次尝试都会产生这样的结果:
{xml_missing}
<NA>
E.g。 SelectorGadget似乎将此标识为位置标题的节点:.pv-position-entity h3
page_html %>% html_node('.pv-position-entity h3')
{xml_missing}
<NA>
我在这里缺少哪些步骤?有人可以帮忙吗? 谢谢!