当我使用xml库进行网页抓取时,我遇到了问题。
library(XML)
url<- "http://scholar.google.com/citations?user=HI-I6C0AAAAJ&hl=en"
html<-htmlTreeParse(url,useInternalNodes = T)
第一个实例
xpathSApply(html,"//title",xmlValue)
# list()
对应html源代码 Jeff Leek - Google学术搜索引用
第二次实例
xpathSApply(html,"//span[@class='gsc_g_al']",xmlValue)
# list()
对应的HTML源代码如下: 86
第三个实例
xpathSApply(html,"//td[@class='gsc_a_ac']",xmlValue)
# list()
对应的HTML源代码如下: 466
试 xpathSApply(HTML, “// TD”,xmlValue) 列表()
当我使用httr库时,同样的事情
library(httr)
html2 = GET(url)
content2 = content(html2, as="text")
parsedHTML = htmlParse(content2, asText = TRUE)
第一个实例
xpathSApply(parsedHTML, "//title", xmlValue)
# [1] "Jeff Leek - Google Scholar Citations"
第二次实例
xpathSApply(parsedHTML, "//span[@class='gsc_g_al']", xmlValue)
# [1] "86" "129" "106" "185" "285" "435" "573" "669" "658"
第三次
xpathSApply(parsedHTML, "//td[@class='gsc_a_c']", xmlValue)
# [1] "466" "457" "444" "245" "219" "198" "173" "158" "142" "129" "110" "73" "69" "46" "29*" "24" "22" "20" "19"
# [20] "18"
我得到了理想的结果
请帮助我总是使用htmlTreeParse和xml库获取空列表()。这与我的库安装有关吗?