我正在尝试从此page中提取表数据。
尝试了bs4和selenium,但是表数据没有出现在代码中,尝试了在硒中的等待模式也没有给出。
NewList = {} {} {} {} {} {} foo {} {} {Fred 1}
答案 0 :(得分:2)
有大熊猫可以帮助您。我做到了输出看起来更好。
您可能需要先安装lxml
。
所以,首先
!pip3 install lxml
然后
import pandas as pd
from selenium import webdriver
url = 'https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=82594&CodigoTipoInstituicao=2'
driver = webdriver.Chrome()
driver.get(url)
iframe = driver.find_element_by_tag_name('iframe')
driver.switch_to.frame(iframe)
dfs = pd.read_html(driver.page_source)
print(dfs[0].head())
#output
0 1 \
0 Conta Descrição
1 3.01 Receitas da Intermediação Financeira
2 3.01.01 Receita de Juros e Rendimentos
3 3.01.02 Receita de Dividendos
4 3.01.03 Resultado de Operações de Câmbio e Variação Ca...
2 3
0 01/01/2019 a 31/03/2019 01/01/2018 a 31/03/2018
1 17.010.000 16.856.000
2 6.142.000 5.973.000
3 NaN NaN
4 303.000 -145.000