解析Pandas中的多索引Excel文件

时间:2014-06-10 17:09:51

标签: python excel parsing pandas time-series

我有一个带有三级列MultiIndex的时间序列excel文件,如果可能的话我想成功解析。关于如何对堆栈溢出的索引执行此操作有一些结果,而不是列,而parse函数的header似乎没有列出行。

ExcelFile看起来如下所示:

  • A栏是从A4
  • 开始的所有时间序列日期
  • B列有top_level1(B1)mid_level1(B2)low_level1(B3)数据(B4-B100 +)
  • C列有null(C1)null(C2)low_level2(C3)数据(C4-C100 +)
  • D列有空(D1)mid_level2(D2)low_level1(D3)数据(D4-D100 +)
  • E列有null(E1)null(E2)low_level2(E3)数据(E4-E100 +)
  • ...

因此有两个low_level值很多mid_level值和一些top_level值,但诀窍是顶级和中级值为空,并假设为值剩下。因此,例如上面的所有列都将top_level1作为顶部多索引值。

到目前为止,我最好的想法是使用transpose,但它在任何地方填充Unnamed: #并且似​​乎无法正常工作。在Pandas 0.13 read_csv似乎有一个header参数可以列出一个列表,但这似乎不适用于parse

1 个答案:

答案 0 :(得分:7)

您可以fillna空值。我没有你的文件,但你可以测试

#Headers as rows for now
df = pd.read_excel(xls_file,0, header=None, index_col=0) 

#fill in Null values in "Headers"
df = df.fillna(method='ffill', axis=1) 

#create multiindex column names
df.columns=pd.MultiIndex.from_arrays(df[:3].values, names=['top','mid','low']) 

#Just name of index
df.index.name='Date' 

#remove 3 rows which are already used as column names
df = df[pd.notnull(df.index)]