Question

我正在尝试使用XML，RCurl包来读取以下URL的一些html表 http://www.nse-india.com/marketinfo/equities/cmquote.jsp?key=SBINEQN&symbol=SBIN&flag=0&series=EQ#

以下是我正在使用的代码

library(RCurl)
library(XML)
options(RCurlOptions = list(useragent = "R"))
url <- "http://www.nse-india.com/marketinfo/equities/cmquote.jsp?key=SBINEQN&symbol=SBIN&flag=0&series=EQ#"
wp <- getURLContent(url)
doc <- htmlParse(wp, asText = TRUE) 
docName(doc) <- url
tmp <- readHTMLTable(doc)
## Required tables 
tmp[[13]]
tmp[[14]]

如果查看表格，则无法解析网页中的值。我想这是由于一些javascipt评估在飞行中发生。现在，如果我在谷歌浏览器中使用“保存页面为”选项（它在mozilla中不起作用）并保存页面，然后使用上面的代码，我能够读取值。

但是有没有解决方法让我可以阅读苍蝇表？如果你可以帮忙的话会很棒。

此致

Answer 1

看起来他们通过访问http://www.nse-india.com/marketinfo/equities/ajaxGetQuote.jsp?symbol=SBIN&series=EQ并解析出一些字符串来使用javascript构建页面。也许你可以获取数据并解析出来而不是抓取页面本身。

但是，您似乎必须使用cURL使用正确的引荐来源标头构建请求。正如您所看到的，您只能通过裸请求点击该ajaxGetQuote页面。

您可以通过在Chrome或Safari中使用Web Inspector或在Firefox中使用Firebug来阅读要插入的相应标题。

从网站提取html表

1 个答案: