我正在尝试使用网站上的表格。当我使用熊猫read_html导入时,网站上的第四张表。
使用pandas.read_html,我可以以一种非常简单而漂亮的方式获取数据。
我的问题是,我不需要最后一列(“ Arquivo”)中的“下载”文本,而是要下载的href链接。
有人可以帮助我实现此异常吗?
我已经看到了一些答案(像这样的答案:HTML table to pandas table: Info inside html tags),但是我无法实现这种情况。
这是我的代码:
import pandas as pd
data = (pd.read_html('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')[3])
print(df) #this way I print the table with 'Download' text.
第二次尝试:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options() #I pretend to use headless, but I did not activate in this example.
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome()
driver.get('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')
bsobj = bs(driver.page_source, 'lxml')
tabela_geral = bsobj.findAll('table', {'class':'table table-striped'})
#this returns to me all the tables I want to work with. is this case, the table in the first (0)
import lxml.html as LH
table = LH.fromstring(str(tabela_geral[0])) #getting just the first return from selenium.
for df in pd.read_html(str(tabela_geral[0])):
df['Arquivo'] = table.xpath('//tr/td/a/@href')
print(df) #this returns me an error.
发怒。
ps:MacOS High Sierra / Python 3.6