我的pandas数据框A看起来像:
2007-12-31 50230.62
2008-01-02 48646.84
2008-01-03 48748.04
2008-01-04 46992.22
2008-01-07 46491.28
2008-01-08 45347.72
2008-01-09 45681.68
2008-01-10 46430.5
日期列是索引。我还有一个长度相同的numpy数组B,其元素为-1,0和1.将数据帧A分成3个数据帧的最简洁方法是将具有相同B对应元素的行组合在一起。例如。如果B = numpy.array([0,0,0,1,1,-1,-1,0])那么数据帧应分成:
X
2007-12-31 50230.62
2008-01-02 48646.84
2008-01-03 48748.04
2008-01-10 46430.5
Y
2008-01-04 46992.22
2008-01-07 46491.28
Z
2008-01-08 45347.72
2008-01-09 45681.68
答案 0 :(得分:1)
从熊猫中利用groupby
很容易,然后您可以选择将它们分组,这样您就不会将数据加倍。但你可以随时分配
import numpy as np
import pandas as pd
import io
data = """ 2007-12-31 50230.62
2008-01-02 48646.84
2008-01-03 48748.04
2008-01-04 46992.22
2008-01-07 46491.28
2008-01-08 45347.72
2008-01-09 45681.68
2008-01-10 46430.5"""
df = pd.read_csv(io.StringIO(data), delimiter='\s+', header=None)
B = np.array([0, 0, 0, 1, 1, -1, -1, 0])
df['B'] = B
df_groups = df.groupby(['B'])
x = df_groups.get_group((0))
y = df_groups.get_group((-1))
z = df_groups.get_group((1))
0,-1,1
是基于B
值的名称。