使用beautifulsoup的Html表报废

时间:2017-03-15 13:54:38

标签: python pandas dataframe beautifulsoup

我正在尝试从SEC填充10-K的表格,我认为除了pandas将其转换为数据帧的部分之外,我是新手数据框架,所以我认为在编制索引时出错,请帮助我这是因为我得到了以下错误“IndexError:索引2超出轴0的大小为2”

我正在使用这个编程

import requests
import pandas as pd
from bs4 import BeautifulSoup
url = 'https://www.sec.gov/Archives/edgar/data/1022344/000155837017000934/spg-20161231x10k.htm#Item8FinancialStatementsandSupplementary'
r = requests.get(url)
html_doc = r.text
soup = BeautifulSoup(html_doc, 'lxml')
table = soup.find_all('table')[0]
new_table = pd.DataFrame(columns=range(0,2), index = [0])
row_marker = 0
    for row in table.find_all('tr'):
    column_marker = 0
    columns = row.find_all('td')
    for column in columns:
        new_table.iat[row_marker,column_marker] = column.get_text()
        column_marker += 1

new_table

如果数据帧问题无法解决,请建议任何其他替代方法,例如将数据写入csv / excel,同时提取多个表格的任何提议都会非常有用

0 个答案:

没有答案