googleCite.r是一个很棒的脚本,大约一年前我没有遇到任何问题,但现在我收到了这些错误:
我已经尝试过这种方式(脚本中的默认说明)
源(" http://biostat.jhsph.edu/~jleek/code/googleCite.r&#34) out< - googleCite(" http://scholar.google.com/citations?user=nFW-2Q8AAAAJ&hl=en",pdfname =" rafa_cloud.pdf") readLines出错(con,encoding =" UTF-8"):无法打开连接
我还尝试使用googleCite包,但是我收到此错误: 错误:无法加载HTTP资源
答案 0 :(得分:1)
首先,它不是一个包,它是一个源代码,黑客攻击的脚本。初始页面需要很长时间才能在浏览器中加载,但是 - 即使在此之后 - R脚本仍然会抛出表明页面格式发生变化的错误。我不确定您在页面中需要什么,但您可以尝试使用rvest
提取组件以更好地利用时间。
library(rvest)
library(dplyr)
pg <- html("http://scholar.google.com/citations?user=nFW-2Q8AAAAJ&hl=en")
data.frame(year=pg %>% html_nodes("td.gsc_a_y") %>% html_text(),
cited_by=pg %>% html_nodes("td.gsc_a_c") %>% html_text(),
title=pg %>% html_nodes("td.gsc_a_t") %>% html_text())