使用googlecite.r连接错误

时间:2015-01-01 01:53:24

标签: r

googleCite.r是一个很棒的脚本,大约一年前我没有遇到任何问题,但现在我收到了这些错误:

我已经尝试过这种方式(脚本中的默认说明)

  

源(" http://biostat.jhsph.edu/~jleek/code/googleCite.r&#34)   out< - googleCite(" http://scholar.google.com/citations?user=nFW-2Q8AAAAJ&hl=en",pdfname =" rafa_cloud.pdf")       readLines出错(con,encoding =" UTF-8"):无法打开连接

我还尝试使用googleCite包,但是我收到此错误: 错误:无法加载HTTP资源

1 个答案:

答案 0 :(得分:1)

首先,它不是一个包,它是一个源代码,黑客攻击的脚本。初始页面需要很长时间才能在浏览器中加载,但是 - 即使在此之后 - R脚本仍然会抛出表明页面格式发生变化的错误。我不确定您在页面中需要什么,但您可以尝试使用rvest提取组件以更好地利用时间。

library(rvest)
library(dplyr)

pg <- html("http://scholar.google.com/citations?user=nFW-2Q8AAAAJ&hl=en")

data.frame(year=pg %>% html_nodes("td.gsc_a_y") %>% html_text(),
           cited_by=pg %>% html_nodes("td.gsc_a_c") %>% html_text(),
           title=pg %>% html_nodes("td.gsc_a_t") %>% html_text())