我有很多pandas DataFrames用于股票。它们都有以下形式:
df_asset = pd.DataFrame(data=np.random.random((5,4)), index=[0, 1, 2, 3, 4], columns=['Open', 'High', 'Low', 'Close'])
我已将资产名称及其DataFrame存储在字典中:
stock_data = {'AAPL' : df_AAPL, 'CSCO' : df_CSCO ...}
我想加入所有这些DataFrame来创建表单的MultiIndexed DataFrame:
df = pd.DataFrame(data=np.random.random((15,4)), index=pd.MultiIndex.from_product([list(range(1,6)), ['AAPL', 'CSCO', 'AMZN']]), columns=['Open', 'High', 'Low', 'Close'])
最优雅(并且希望有效)的方法是什么?
感谢您的帮助,
杰克
答案 0 :(得分:4)
您可以使用
将concatenate a dict of DataFrames,dfs
放入单个DataFrame中
df = pd.concat(dfs)
df
将使用dict键作为MultiIndex级别。
例如,
In [85]: dfs = {'AAPL': df_asset, 'CSCO': df_asset}
In [86]: df = pd.concat(dfs); df
Out[86]:
Open High Low Close
AAPL 0 0.100276 0.769425 0.060993 0.831183
1 0.251792 0.336571 0.976984 0.237506
2 0.611914 0.029576 0.329525 0.203794
3 0.527770 0.723468 0.887708 0.231006
4 0.965805 0.508156 0.260214 0.063260
CSCO 0 0.100276 0.769425 0.060993 0.831183
1 0.251792 0.336571 0.976984 0.237506
2 0.611914 0.029576 0.329525 0.203794
3 0.527770 0.723468 0.887708 0.231006
4 0.965805 0.508156 0.260214 0.063260
要按照您在问题中发布的顺序获取索引级别,请使用swaplevel
后跟sort_index
:
In [112]: df.swaplevel().sort_index()
Out[112]:
Open High Low Close
0 AAPL 0.100276 0.769425 0.060993 0.831183
CSCO 0.100276 0.769425 0.060993 0.831183
1 AAPL 0.251792 0.336571 0.976984 0.237506
CSCO 0.251792 0.336571 0.976984 0.237506
2 AAPL 0.611914 0.029576 0.329525 0.203794
CSCO 0.611914 0.029576 0.329525 0.203794
3 AAPL 0.527770 0.723468 0.887708 0.231006
CSCO 0.527770 0.723468 0.887708 0.231006
4 AAPL 0.965805 0.508156 0.260214 0.063260
CSCO 0.965805 0.508156 0.260214 0.063260