熊猫read_html以获得href而不只是一栏文字

时间:2018-07-11 20:15:21

标签: python pandas web-scraping

我正在尝试使用网站上的表格。当我使用熊猫read_html导入时,网站上的第四张表。

使用pandas.read_html,我可以以一种非常简单而漂亮的方式获取数据。

我的问题是,我不需要最后一列(“ Arquivo”)中的“下载”文本,而是要下载的href链接。

有人可以帮助我实现此异常吗?

我已经看到了一些答案(像这样的答案:HTML table to pandas table: Info inside html tags),但是我无法实现这种情况。

这是我的代码:

import pandas as pd
data = (pd.read_html('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')[3])
print(df) #this way I print the table with 'Download' text.

第二次尝试:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options() #I pretend to use headless, but I did not activate in this example. 
options.add_argument('--headless')
options.add_argument('--disable-gpu') 

driver = webdriver.Chrome()
driver.get('http://sisweb.tesouro.gov.br/apex/f?p=2501:2::::2::')

bsobj = bs(driver.page_source, 'lxml')

tabela_geral = bsobj.findAll('table', {'class':'table table-striped'})

#this returns to me all the tables I want to work with. is this case, the table in the first (0)

import lxml.html as LH

table = LH.fromstring(str(tabela_geral[0])) #getting just the first return from selenium.

for df in pd.read_html(str(tabela_geral[0])):
    df['Arquivo'] = table.xpath('//tr/td/a/@href')
    print(df) #this returns me an error.

发怒。

ps:MacOS High Sierra / Python 3.6

0 个答案:

没有答案