网络刮痧在R

时间:2012-09-29 23:22:48

标签: r web-scraping

我正在研究一个研究国家发行的市政债券的项目,但我无法获取我的数据。使用XML包和下面的代码我能够得到一些。

> nys="http://newyork.municipalbonds.com/bonds/issue/649787N87"
> nys.table=readHTMLTable(nys,asText=TRUE,which=4)
> nys.table=as.data.frame(nys.table)
> head(nys.table)
  Trade Date Trade Time Maturity Date Coupon   Price Yield Trade Amount      Trade Type
1 2012-09-27     2:49pm      2013-Apr 5.000% 102.522 0.289     $270,000 Investor bought
2 2012-09-27     1:17pm      2013-Apr 5.000% 102.290 0.712      $45,000    Inter-dealer

但该网站仅提供免费的小样本。官方网站,EMMA免费提供数据,但我正在刮胡子。当我尝试与之前相同的方法时,我最终得到了

nys="http://emma.msrb.org/SecurityView/SecurityDetailsTrades.aspx?cusip=649787N87"
nys.table=readHTMLTable(nys,asText=TRUE)
nys.table=as.data.frame(nys.table)
head(nys.table)

data frame with 0 columns and 0 rows

据我所知,我对此非常肯定,当你通过网络浏览器导航到它时,有一个标准的T& C页面。在使用htmlParse(nys)之后,输出与T& C页面的页面源代码相同,而不是数据实际所在的页面。因此,当代码运行时,它正试图在T& C页面上找到表格。

我认为这是一个相当普遍的问题,但到目前为止,我还没有找到任何有类似问题的帖子。如果有人能指出我正确的方向,我将非常感激。

1 个答案:

答案 0 :(得分:6)

我终于开始工作了。我不得不在Firefox中使用Web Developer,这让我可以看到该网站为Disclaimer cookie设置的名称/值对。这是:

library(RCurl)
nys="http://emma.msrb.org/SecurityView/SecurityDetailsTrades.aspx?cusip=649787N87"
txt<-getURLContent(nys,cookie='Disclaimer=Ratings')
readHTMLTable(htmlParse(txt, asText = TRUE)) 

$ctl00_mainContentArea_tradeSearchResults
        Trade Date/Time   Settlement Date Price (%) Yield (%) Trade Amt ($) Trade Submission Type  
1   09/27/2012 : 02:49 PM      10/02/2012  102.5220     0.289       270,000       Customer bought  
2   09/27/2012 : 01:17 PM      10/02/2012    102.29     0.712        45,000    Inter-dealer Trade  
3   09/27/2012 : 01:17 PM      10/02/2012    102.29     0.712        45,000    Inter-dealer Trade  

要获得接下来的100行,您必须发布一个包含当前“viewstate”的表单:

# Get next set
viewstate=gsub('.*\"__VIEWSTATE\" value=\"([^\"]*)\".*','\\1',txt)

txt<-postForm(nys,
"__VIEWSTATE"=viewstate,
"__EVENTTARGET"="ctl00$mainContentArea$nextBottomButton",
.opts=list(cookie='Disclaimer=Ratings'))
readHTMLTable(htmlParse(txt, asText = TRUE)) 

$ctl00_mainContentArea_tradeSearchResults
        Trade Date/Time   Settlement Date Price (%) Yield (%) Trade Amt ($) Trade Submission Type  
1   06/27/2011 : 01:51 PM      06/30/2011  107.7350      0.65       600,000         Customer sold  
2   06/22/2011 : 12:05 PM      06/27/2011  107.1960     0.957         8,000       Customer bought  
3   06/22/2011 : 12:05 PM      06/27/2011  106.6960     1.226         8,000    Inter-dealer Trade