用R / rvest刮擦iframe表

时间:2017-09-30 15:22:15

标签: html r iframe web-scraping rvest

我知道在这个问题上有一些类似的问题,但他们根本没有帮助。我对HTML的了解有限。

我正试图抓住这个网站:

https://www.rad.cvm.gov.br/enetconsulta/frmGerenciaPaginaFRE.aspx?CodigoTipoInstituicao=1&NumeroSequencialDocumento=68338

我对使用组合框选择的项目13 / 13.2感兴趣(Remuneraçãodosadministradores /Remuneraçãototalporórgão - 这是葡萄牙语)。选择项目后,您会看到带有表格的iframe。我想刮掉这张桌子上的信息。

起初我试过了:

"https://www.rad.cvm.gov.br/enetconsulta/frmGerenciaPaginaFRE.aspx?
CodigoTipoInstituicao=1&NumeroSequencialDocumento=68338" %>%
  read_html() %>%
  html_nodes("iframe") %>%
  extract(1)

给出了:

{xml_nodeset (1)}
[1] <iframe id="ctl00_cphPopUp_iFrameFormulariosFilho" width="100%" 
style="height: 525px; overflow ...

然而,我无法通过它,没有Xpath似乎从这一点开始工作。

有任何帮助吗?

非常感谢。

0 个答案:

没有答案