通过列值复制pandas数据框中的行

时间:2014-11-06 11:01:59

标签: python pandas

我想在Pandas Dataframe中复制行。每行应重复n次,其中n是每行的一个字段。

import pandas as pd

what_i_have = pd.DataFrame(data={
  'id': ['A', 'B', 'C'],
  'n' : [  1,   2,   3],
  'v' : [ 10,  13,   8]
})

what_i_want = pd.DataFrame(data={
  'id': ['A', 'B', 'B', 'C', 'C', 'C'],
  'v' : [ 10,  13,  13,   8,   8,   8]
})

这可能吗?

4 个答案:

答案 0 :(得分:29)

您可以使用np.repeat获取重复的索引,然后使用它来索引框架:

>>> df2 = df.loc[np.repeat(df.index.values,df.n)]
>>> df2
  id  n   v
0  A  1  10
1  B  2  13
1  B  2  13
2  C  3   8
2  C  3   8
2  C  3   8

之后只需要做一些清理工作:

>>> df2 = df2.drop("n",axis=1).reset_index(drop=True)
>>> df2
  id   v
0  A  10
1  B  13
2  B  13
3  C   8
4  C   8
5  C   8

请注意,如果您可能需要担心重复索引,可以改为使用.iloc

In [86]: df.iloc[np.repeat(np.arange(len(df)), df["n"])].drop("n", axis=1).reset_index(drop=True)
Out[86]: 
  id   v
0  A  10
1  B  13
2  B  13
3  C   8
4  C   8
5  C   8

使用位置,而不是索引标签。

答案 1 :(得分:2)

您可以使用set_indexrepeat

In [1057]: df.set_index(['id'])['v'].repeat(df['n']).reset_index()
Out[1057]:
  id   v
0  A  10
1  B  13
2  B  13
3  C   8
4  C   8
5  C   8

详细

In [1058]: df
Out[1058]:
  id  n   v
0  A  1  10
1  B  2  13
2  C  3   8

答案 2 :(得分:0)

不是最佳解决方案,但我想分享一下:您也可以使用pandas.reindex().repeat()

df.reindex(df.index.repeat(df.n)).drop('n', axis=1)

输出:


   id   v
0   A   10
1   B   13
1   B   13
2   C   8
2   C   8
2   C   8

您可以进一步附加.reset_index(drop=True)来重置.index

答案 3 :(得分:0)

类似于 uncount 中的 tidyr

https://tidyr.tidyverse.org/reference/uncount.html

我编写了一个实现此 API 的包 (https://github.com/pwwang/datar):

from datar import f
from datar.tibble import tribble
from datar.tidyr import uncount

what_i_have = tribble(
    f.id, f.n, f.v,
    'A',  1,   10,
    'B',  2,   13,
    'C',  3,   8
)
what_i_have >> uncount(f.n)

输出:

  id   v
0  A  10
1  B  13
1  B  13
2  C   8
2  C   8
2  C   8