R,htmlTreeParse和xml库在web-scraping尝试期间给出空列表

时间:2015-11-25 19:56:11

标签: r

当我使用xml库进行网页抓取时,我遇到了问题。

library(XML)
url<- "http://scholar.google.com/citations?user=HI-I6C0AAAAJ&hl=en"
html<-htmlTreeParse(url,useInternalNodes = T)

第一个实例

xpathSApply(html,"//title",xmlValue)
# list()

对应html源代码 Jeff Leek - Google学术搜索引用

第二次实例

xpathSApply(html,"//span[@class='gsc_g_al']",xmlValue)
# list()

对应的HTML源代码如下: 86

第三个实例

xpathSApply(html,"//td[@class='gsc_a_ac']",xmlValue)
# list()

对应的HTML源代码如下: 466

试     xpathSApply(HTML, “// TD”,xmlValue)     列表()

当我使用httr库时,同样的事情

library(httr)
html2 = GET(url)
content2 = content(html2, as="text")
parsedHTML = htmlParse(content2, asText = TRUE)

第一个实例

xpathSApply(parsedHTML, "//title", xmlValue)
# [1] "Jeff Leek - Google Scholar Citations"

第二次实例

xpathSApply(parsedHTML, "//span[@class='gsc_g_al']", xmlValue)
# [1] "86"  "129" "106" "185" "285" "435" "573" "669" "658"

第三次

xpathSApply(parsedHTML, "//td[@class='gsc_a_c']", xmlValue)
# [1] "466" "457" "444" "245" "219" "198" "173" "158" "142" "129" "110" "73"  "69"  "46"  "29*" "24"  "22"  "20"  "19" 
# [20] "18" 

我得到了理想的结果

请帮助我总是使用htmlTreeParse和xml库获取空列表()。这与我的库安装有关吗?

0 个答案:

没有答案