我正在抓论论坛用户个人资料(仅供研究使用)。
昨天在处理脚本时,我构建了两个版本的函数,从Selector Gadget中提取了略有不同的css:
F1:
prof_info <- function(url1){
profile <- jump_to(pgsession, url1)
page <- html(profile)
profile_info <- html_nodes(x = page, css = "dd , dt , #viewprofile span")
data_profile <- as.list(html_text(profile_info, trim = TRUE))
return(data_profile)
}
F2:
prof_info2 <- function(url1){
profile <- jump_to(pgsession, url1)
page <- html(profile)
profile_info <- html_nodes(x = page, css = ".column2 dd , .column2 dt , .profile-details dd , #viewprofile span , .profile-details dt")
data_profile <- as.list(html_text(profile_info, trim = TRUE))
return(data_profile)
}
昨天我检查了两个并且两个都工作了,只有F2给出了稍好的输出。所以今天我在过去3个小时的60000链接链接列表中执行了F2版本。现在它回复了我:
[[1]]
list()
[[2]]
list()
[[3]]
list()
依此类推,直到60000年。
为什么会这样? F2出了什么问题?