拆分行并计算pandas中的新值

时间:2017-06-17 00:50:12

标签: python pandas

想象一下,我有这个数据帧:

df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"])

看起来像这样:

   name  value
0     a      0
1   b,c      2

当列name中有逗号时,我想拆分该行,并在新行之间平均分配value中的数字。所以,结果必须是:

   name  value
0     a      0
1     b      1
2     c      1

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:2)

<强>计划
这是pandasnumpy版本的同一计划

  • 获取列表
  • 找到这些列表的长度
  • 将值除以长度,因为这会分配
  • 以相同的长度重复减少的数量,现在抵消减少,使得总和与以前相同
  • 使用新系列重建数据框

pandas

lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

  name value
0    a   0.0
1    b   1.0
2    c   1.0

numpy

lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

  name value
0    a   0.0
1    b   1.0
2    c   1.0

计时

%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

1000 loops, best of 3: 843 µs per loop


%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

1000 loops, best of 3: 207 µs per loop