htmlParse无法加载外部实体

时间:2017-05-18 05:21:23

标签: r web-scraping html-parsing rcurl httr

我正在尝试从

中提取数据
url <- ("http://angel.co/companies?locations[]=1647-India")

代码

library(XML) 
my <- htmlParse(url)
  

错误:无法从网址加载外部实体

尝试2

library(XML)
library(httr)
qw <- GET(url)
my <- readHTMLTable(rawToChar(qw$content))
  

qw $ content出错:$ operator对原子向量无效

尝试3

qw <- getURL(url)
my <- readHTMLTable(url, stringsAsFactors = F)
  

错误:找不到函数“getURL”

     

错误:无法从网址加载外部实体

1 个答案:

答案 0 :(得分:0)

网址提供301状态,原因是网站只允许SSL连接。试试这个(基本上不同之处在于使用https代替http)。

library(XML)
library(RCurl)
url <- ("https://angel.co/companies?locations[]=1647-India")
htmlContent <- getURL(url)
htmlTree <- htmlTreeParse(htmlContent)