合并Pandas DataFrame的所有列

时间:2018-01-16 22:13:34

标签: python performance pandas dataframe

我有很多pandas DataFrames用于股票。它们都有以下形式:

df_asset = pd.DataFrame(data=np.random.random((5,4)), index=[0, 1, 2, 3, 4], columns=['Open', 'High', 'Low', 'Close'])

我已将资产名称及其DataFrame存储在字典中:

stock_data = {'AAPL' : df_AAPL, 'CSCO' : df_CSCO ...}

我想加入所有这些DataFrame来创建表单的MultiIndexed DataFrame:

df = pd.DataFrame(data=np.random.random((15,4)), index=pd.MultiIndex.from_product([list(range(1,6)), ['AAPL', 'CSCO', 'AMZN']]), columns=['Open', 'High', 'Low', 'Close'])

最优雅(并且希望有效)的方法是什么?

感谢您的帮助,

杰克

1 个答案:

答案 0 :(得分:4)

您可以使用

concatenate a dict of DataFramesdfs放入单个DataFrame中
df = pd.concat(dfs)

df将使用dict键作为MultiIndex级别。

例如,

In [85]: dfs = {'AAPL': df_asset, 'CSCO': df_asset}

In [86]: df = pd.concat(dfs); df
Out[86]: 
            Open      High       Low     Close
AAPL 0  0.100276  0.769425  0.060993  0.831183
     1  0.251792  0.336571  0.976984  0.237506
     2  0.611914  0.029576  0.329525  0.203794
     3  0.527770  0.723468  0.887708  0.231006
     4  0.965805  0.508156  0.260214  0.063260
CSCO 0  0.100276  0.769425  0.060993  0.831183
     1  0.251792  0.336571  0.976984  0.237506
     2  0.611914  0.029576  0.329525  0.203794
     3  0.527770  0.723468  0.887708  0.231006
     4  0.965805  0.508156  0.260214  0.063260

要按照您在问题中发布的顺序获取索引级别,请使用swaplevel后跟sort_index

In [112]: df.swaplevel().sort_index()
Out[112]: 
            Open      High       Low     Close
0 AAPL  0.100276  0.769425  0.060993  0.831183
  CSCO  0.100276  0.769425  0.060993  0.831183
1 AAPL  0.251792  0.336571  0.976984  0.237506
  CSCO  0.251792  0.336571  0.976984  0.237506
2 AAPL  0.611914  0.029576  0.329525  0.203794
  CSCO  0.611914  0.029576  0.329525  0.203794
3 AAPL  0.527770  0.723468  0.887708  0.231006
  CSCO  0.527770  0.723468  0.887708  0.231006
4 AAPL  0.965805  0.508156  0.260214  0.063260
  CSCO  0.965805  0.508156  0.260214  0.063260