只对Pandas中的一些列进行多索引

时间:2016-03-11 23:34:10

标签: python pandas dataframe multi-index

我有一个以我无法改变的格式生成的csv。该文件具有多索引。该文件看起来像这样。

enter image description here

最终目标是将顶行(小时)转换为索引,并使用“ID”列对其进行索引,以便数据看起来像这样。

enter image description here

我已将文件导入pandas ......

myfile = 'c:/temp/myfile.csv'
df = pd.read_csv(myfile, header=[0, 1], tupleize_cols=True)
pd.set_option('display.multi_sparse', False)
df.columns = pd.MultiIndex.from_tuples(df.columns, names=['hour', 'field'])
df

但这给了我三个未命名的字段:

enter image description here

我的最后一步是按小时堆叠:

df.stack(level=['hour'])

但我错过了之前的内容,我可以在其中索引其他列,即使它们上面有一个空白的多索引线。

1 个答案:

答案 0 :(得分:5)

我相信你缺少的线条可能是#3和4:

df = pd.io.parsers.read_csv('temp.csv', header = [0,1], tupleize_cols = True)
df.columns = [c for _, c in df.columns[:3]] + [c for c in df.columns[3:]]
df = df.set_index(list(df.columns[:3]), append = True)
df.columns = pd.MultiIndex.from_tuples(df.columns, names = ['hour', 'field'])
  1. 通过删除前3列的第一个值将元组转换为字符串。头。
  2. 通过将这些标题放在索引中来保护这些标题。
  3. 执行stack后,您可以根据需要重置索引。

    e.g。

      (Unnamed: 0_level_0, Date)  (Unnamed: 1_level_0, id)  \
    0                  3/11/2016                         5   
    1                  3/11/2016                         6   
    
      (Unnamed: 2_level_0, zone)  (100, p1)  (100, p2)  (200, p1)  (200, p2)  
    0                        abc      0.678      0.787      0.337      0.979  
    1                        abc      0.953      0.559      0.776      0.520  
    

    field                        p1     p2
      Date      id zone hour              
    0 3/11/2016 5  abc  100   0.678  0.787
                        200   0.337  0.979
    1 3/11/2016 6  abc  100   0.953  0.559
                        200   0.776  0.520