将url表转换为`data.frame` R-XML-RCurl

时间:2014-09-20 10:00:09

标签: xml r web-scraping rcurl

我正在尝试将网址表转换为data.frame。在其他示例中,我发现以下代码有效:

library(XML)
library(RCurl)
theurl <- "https://es.finance.yahoo.com/q/cp?s=BEL20.BR"
tables <- readHTMLTable(theurl)

正如警告所说表格似乎不是XML

Warning message: XML content does not seem to be XML: 'https://es.finance.yahoo.com/q/cp?s=BEL20.BR'

或者,getURLContent(theurl, ssl.verifypeer = FALSE, useragent = "R")有效,但不知道如何提取表格。任何帮助将不胜感激。

编辑:感谢@ har07使用table <- readHTMLTable(getURLContent(theurl, ssl.verifypeer = FALSE, useragent = "R"))$ yfncsumtab提供输出但仍需要过滤。

1 个答案:

答案 0 :(得分:3)

如果您使用getURL获取文档内容,则可以获取该表。有时readHTMLTable无法获取内容。在这些情况下,建议您尝试getURL

> library(XML)
> library(RCurl)
> URL <- getURL("https://es.finance.yahoo.com/q/cp?s=BEL20.BR")
> rt <- readHTMLTable(URL, header = TRUE)
> rt

您可能需要调整header参数以及可能的其他参数,但表格就在那里。