Python报废硒

时间:2019-11-10 21:09:48

标签: python selenium

我正在尝试从此page中提取表数据。

尝试了bs4和selenium,但是表数据没有出现在代码中,尝试了在硒中的等待模式也没有给出。

NewList = {} {} {} {} {} {} foo {} {} {Fred 1}

1 个答案:

答案 0 :(得分:2)

有大熊猫可以帮助您。我做到了输出看起来更好。 您可能需要先安装lxml。 所以,首先

!pip3 install lxml

然后

import pandas as pd
from selenium import webdriver
url = 'https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=82594&CodigoTipoInstituicao=2'
driver = webdriver.Chrome()
driver.get(url)
iframe = driver.find_element_by_tag_name('iframe')
driver.switch_to.frame(iframe)


dfs = pd.read_html(driver.page_source)
print(dfs[0].head())

#output
      0                                                  1  \
0    Conta                                          Descrição   
1     3.01               Receitas da Intermediação Financeira   
2  3.01.01                     Receita de Juros e Rendimentos   
3  3.01.02                              Receita de Dividendos   
4  3.01.03  Resultado de Operações de Câmbio e Variação Ca...   

                         2                        3  
0  01/01/2019 a 31/03/2019  01/01/2018 a 31/03/2018  
1               17.010.000               16.856.000  
2                6.142.000                5.973.000  
3                      NaN                      NaN  
4                  303.000                 -145.000