通过随机采样其他列数据来创建新列

时间:2019-04-09 17:29:34

标签: python pandas

我想通过从其余列中随机采样数据来创建新列。

考虑如下具有“ N”列的数据框:

|---------------------|------------------|---------------------|
|      Column 1       |     Column 2     |      Column N       |
|---------------------|------------------|---------------------|
|          0.37       |         0.8      |          0.0        |
|---------------------|------------------|---------------------|
|          0.0        |         0.0      |          0.8        |
|---------------------|------------------|---------------------|

结果数据框应该看起来像

|---------------------|------------------|---------------------|---------------|
|      Column 1       |     Column 2     |      Column N       |     Sampled   |
|---------------------|------------------|---------------------|---------------|
|          0.37       |         0.8      |          0.0        |       0.8     |
|---------------------|------------------|---------------------|---------------|
|          0.0        |         0.0      |          B          |        B      |
|---------------------|------------------|---------------------|---------------|
|          A          |         5        |          0.8        |        A      |
|---------------------|------------------|---------------------|---------------|

通过随机选择“ N”列的相应条目之一来创建“已采样”列的条目。例如,从第2列中选择“ 0.8”,从第N列中选择“ B”,依此类推。

df.sample(axis=1)仅选择一列并返回它。这不是我想要的。

最快的方法是什么?该方法必须高效,因为原始数据帧很大,有很多行和列。

4 个答案:

答案 0 :(得分:5)

您可以使用基础的numpy数组并为每行选择一个随机索引。

u = df.values
r = np.random.randint(0, u.shape[1], u.shape[0])

df.assign(Sampled=u[np.arange(u.shape[0]), r])

  Column 1  Column 2 Column N Sampled
0     0.37       0.8      0.0    0.37
1      0.0       0.0        B       B
2        A       5.0      0.8       A

答案 1 :(得分:5)

熊猫基地lookup + sample

s=df.columns.to_series().sample(len(df),replace = True)
df['New']=df.lookup(df.index,s)
df
Out[177]: 
  Column1  Column2 ColumnN  New
0    0.37      0.8     0.0  0.8
1     0.0      0.0       B    B
2       A      5.0     0.8    A

答案 2 :(得分:2)

一个选择是沿行apply np.random.choice到数据框。这可能会或可能不会为您提供所需的性能,但是我由您自己决定

设置:DF具有4列11000行

df=pd.DataFrame({'a':[np.random.rand() for i in range(11000)],'b':[np.random.rand() for i in range(11000)],
                 'c':[np.random.rand() for i in range(11000)],'d':[np.random.rand() for i in range(11000)]})

%timeit df['e']=df.apply(lambda x: np.random.choice(x), axis=1)

193 ms ± 28 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

其他基准:

在lambda中添加x.values似乎可以将速度提高大约20%。但是,@ wen-ben的解决方案在相同数据帧上对此方法进行了100倍的改进

1.91 ms ± 155 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

根据要求,这是user3483203回答的时间安排,可能会更好(我必须对其进行一些处理以使其与时间安排魔术配合使用,所以ymmv)

%%timeit
df1=df.copy()
u = df.values
r = np.random.randint(0, u.shape[1], u.shape[0])

df1=df1.assign(Sampled=u[np.arange(u.shape[0]), r])

590 µs ± 37 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

答案 3 :(得分:2)

from random import choice
df['sample'] =  df.apply(lambda x:choice(x.values),axis =1)