我正在尝试读取具有子标题的excel文件。到目前为止,我正在做以下事情:
link = 'http://www.bea.gov/industry/xls/io-annual/GDPbyInd_GO_NAICS_1997-2013.xlsx'
xd = pd.read_excel(link, sheetname='07NAICS_GO_A_Gross Output', skiprows=3)
不幸的是,数据在第4行(0索引)中有第二个子标题,它只给出测量单位,如下所示。我可以以某种方式干净地忽略那一行吗?
Table IO Code Description 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Current-dollar gross output (Millions of dollars)
A 1111A0 Oilseed farming 19973 17241 13259 13646 13721 14258 15672 21290 17910 18325 21425 31559 33027 34592 38524 43203 44948
答案 0 :(得分:1)
skiprows
可以是要忽略的行列表,因此这可以达到您想要的效果:
xd = pd.read_excel(link, sheetname='07NAICS_GO_A_Gross Output', skiprows=[0, 1, 2, 4])