Question

我正在尝试读取具有子标题的excel文件。到目前为止，我正在做以下事情：

link = 'http://www.bea.gov/industry/xls/io-annual/GDPbyInd_GO_NAICS_1997-2013.xlsx'
xd = pd.read_excel(link, sheetname='07NAICS_GO_A_Gross Output', skiprows=3)

不幸的是，数据在第4行（0索引）中有第二个子标题，它只给出测量单位，如下所示。我可以以某种方式干净地忽略那一行吗？

Table   IO Code Description 1997    1998    1999    2000    2001    2002    2003    2004    2005    2006    2007    2008    2009    2010    2011    2012    2013                    
Current-dollar gross output (Millions of dollars)                                                                                               
A   1111A0  Oilseed farming 19973   17241   13259   13646   13721   14258   15672   21290   17910   18325   21425   31559   33027   34592   38524   43203   44948

Answer 1

skiprows可以是要忽略的行列表，因此这可以达到您想要的效果：

xd = pd.read_excel(link, sheetname='07NAICS_GO_A_Gross Output', skiprows=[0, 1, 2, 4])

熊猫：Excel小标题

1 个答案: