无法在R中加载HTTP源

时间:2012-12-13 04:16:39

标签: xml r http parsing load

我尝试使用下面的代码解析网页,但最后一行显示“无法加载HTTP资源”的输出。谁能告诉我如何处理它?谢谢! 代码是:

library(XML);library(RCurl)
page=getForm("http://jobsearch.monster.com/search",query="data science")
doc = htmlParse(page, asText = TRUE)
joblinks = getNodeSet(doc, "//div[@class = 'jobTitleContainer']//a/@href")
htmlParse(joblinks[[1]])

1 个答案:

答案 0 :(得分:-1)

两件事,?htmlParse将指向isURL标志,默认情况下为FALSE。您想将其设置为TRUE。

其次,joblinks[[1]]中的网址似乎不起作用。这似乎不是您的R代码的问题,只是您要提取的信息:

# works
htmlParse("http://stackoverflow.com/questions/13852853/failed-to-load-http-source-in-r", isURL=TRUE)

# doesnt work 
htmlParse("http://jobview.monster.com/Cleaning-Supervisor-Job-1513-Rebel-Southwest-OH-117109119.aspx", isURL=TRUE)