Question

我创建了一个具有MultiIndex的数据框，如下所示：

import numpy as np
import pandas as pd
column_index= [np.array(['OPEN','OPEN','CLOSE','CLOSE']),np.array(['IBM','AAPL','IBM','AAPL'])]
df = pd.DataFrame(np.transpose(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])),index=['20190101','20190102','20190103'],columns=column_index)

结果是这样的：

          OPEN          CLOSE
          IBM   AAPL    IBM AAPL
20190101    1    4      7   10
20190102    2    5      8   11
20190103    3    6      9   12

现在，我想通过执行以下操作来创建一组新的列：

df['RTN'] = df.CLOSE / df.OPEN

获得：

            OPEN      CLOSE       RTN
            IBM AAPL  IBM   AAPL  IBM   AAPL
20190101    1   4     7     10    7.0   2.5
20190102    2   5     8     11    4.0   2.2
20190103    3   6     9     12    3.0   2.0

那是行不通的。我能够做到的最好方法就是这样：

rtn = df.CLOSE / df.OPEN
rtn = pd.concat([rtn],keys=['RTN'],axis=1)
df = pd.concat([df,rtn],axis=1)

是否有一种无需其他步骤即可完成此任务的方法？

Answer 1

一种方法是在操作之前rename列。然后是一个简单的concat：

u = df.loc[:, ['CLOSE']].rename(columns={'CLOSE': 'RTN'}, level=0).divide(
        df.loc[:, ['OPEN']].rename(columns={'OPEN': 'RTN'}, level=0))
                   # [] DataFrame selection keeps MultiIndex

pd.concat([df, u], axis=1)

或者，您可以stack + eval + unstack。简洁明了，但对于大型数据集而言可能不是超级高性能。

df.stack().eval('RTN = CLOSE/OPEN').unstack()
#df.stack().assign(RTN = lambda x: x.CLOSE/x.OPEN).unstack()

没有eval：

df.stack().assign(RTN = lambda x: x.CLOSE/x.OPEN).unstack()

#or 

df = df.stack()
df['RTN'] = df.CLOSE/df.OPEN
df = df.unstack()

在所有情况下的输出：

         OPEN      CLOSE       RTN     
          IBM AAPL   IBM AAPL  IBM AAPL
20190101    1    4     7   10  7.0  2.5
20190102    2    5     8   11  4.0  2.2
20190103    3    6     9   12  3.0  2.0

熊猫MultiIndex分配多个列

1 个答案: