使用rvest查找必要的节点:所有尝试都会导致{xml_missing}

时间:2017-11-05 20:11:03

标签: html r xml xpath rvest

我正试图抓取我自己的LinkedIn页面以获取数据,以便稍后进入Rmarkdown简历。

我从this gist开始。但是,它已经2年了,不再适用了。 这一部分似乎有效:

user_url <- "https://www.linkedin.com/in/___yourprofilepagehere____/"

username <- 'your_login'
password <- 'your_password'

library(rvest)   

linkedin_url <- "https://linkedin.com/"
pgsession <- html_session(linkedin_url) 
pgform <- html_form(pgsession)[[1]]
filled_form <- set_values(pgform,
                          session_key = username, 
                          session_password = password)

submit_form(pgsession, filled_form)

pgsession <- jump_to(pgsession, user_url)
page_html <- read_html(pgsession)

page_html检查html_text()告诉我们所需信息在对象中。 但是,我不知道调用哪些节点来提取该数据。原始代码不再有效。 我尝试了用于Chrome的SelectorGadget插件,以及检查页面以查找相关的CSS节点或xpath,但每次尝试都会产生这样的结果:

{xml_missing} <NA>

E.g。 SelectorGadget似乎将此标识为位置标题的节点:.pv-position-entity h3

page_html %>% html_node('.pv-position-entity h3')
{xml_missing}
<NA>

我在这里缺少哪些步骤?有人可以帮忙吗? 谢谢!

0 个答案:

没有答案