根据相应的numpy数组值拆分Dataframe

时间:2015-10-31 04:17:02

标签: python numpy pandas

我的pandas数据框A看起来像:

    2007-12-31    50230.62
    2008-01-02    48646.84
    2008-01-03    48748.04
    2008-01-04    46992.22
    2008-01-07    46491.28
    2008-01-08    45347.72
    2008-01-09    45681.68
    2008-01-10    46430.5

日期列是索引。我还有一个长度相同的numpy数组B,其元素为-1,0和1.将数据帧A分成3个数据帧的最简洁方法是将具有相同B对应元素的行组合在一起。例如。如果B = numpy.array([0,0,0,1,1,-1,-1,0])那么数据帧应分成:

    X
    2007-12-31    50230.62
    2008-01-02    48646.84
    2008-01-03    48748.04
    2008-01-10    46430.5

    Y
    2008-01-04    46992.22
    2008-01-07    46491.28

    Z
    2008-01-08    45347.72
    2008-01-09    45681.68

1 个答案:

答案 0 :(得分:1)

从熊猫中利用groupby很容易,然后您可以选择将它们分组,这样您就不会将数据加倍。但你可以随时分配

import numpy as np
import pandas as pd
import io

data = """    2007-12-31    50230.62
    2008-01-02    48646.84
    2008-01-03    48748.04
    2008-01-04    46992.22
    2008-01-07    46491.28
    2008-01-08    45347.72
    2008-01-09    45681.68
    2008-01-10    46430.5"""

df = pd.read_csv(io.StringIO(data), delimiter='\s+', header=None)
B = np.array([0, 0, 0, 1, 1, -1, -1, 0])

df['B'] = B

df_groups = df.groupby(['B'])

x = df_groups.get_group((0))
y = df_groups.get_group((-1))
z = df_groups.get_group((1))

0,-1,1是基于B值的名称。