Question

我正试图抓取我自己的LinkedIn页面以获取数据，以便稍后进入Rmarkdown简历。

我从this gist开始。但是，它已经2年了，不再适用了。这一部分似乎有效：

user_url <- "https://www.linkedin.com/in/___yourprofilepagehere____/"

username <- 'your_login'
password <- 'your_password'

library(rvest)   

linkedin_url <- "https://linkedin.com/"
pgsession <- html_session(linkedin_url) 
pgform <- html_form(pgsession)[[1]]
filled_form <- set_values(pgform,
                          session_key = username, 
                          session_password = password)

submit_form(pgsession, filled_form)

pgsession <- jump_to(pgsession, user_url)
page_html <- read_html(pgsession)

用page_html检查html_text()告诉我们所需信息在对象中。但是，我不知道调用哪些节点来提取该数据。原始代码不再有效。我尝试了用于Chrome的SelectorGadget插件，以及检查页面以查找相关的CSS节点或xpath，但每次尝试都会产生这样的结果：

{xml_missing} <NA>

E.g。 SelectorGadget似乎将此标识为位置标题的节点：.pv-position-entity h3

page_html %>% html_node('.pv-position-entity h3')
{xml_missing}
<NA>

我在这里缺少哪些步骤？有人可以帮忙吗？谢谢！

使用rvest查找必要的节点：所有尝试都会导致{xml_missing}

0 个答案: