shuffle和交换列R.

时间:2018-06-02 21:09:38

标签: r database split shuffle

我有一排2000排网球比赛,有10列单场比赛的静力学。所有比赛按比赛的DAY排序,而ID1则是比赛的胜者。

我需要的是随机播放我的df行(这不是问题,因为非常简单)并随机更改ID1-> ID2的位置以及所有列中的统计信息,例如列A_1 - &gt ;列A_2,加上发生这样的列,如" 1"当列的位置改变时," 0"当所有列都处于相同位置时。

这是一个例子

DAY    ID1      ID2      A_1    A_2    B_1    B_2
1       10       20       4      6      10     2
2       5         4       0      2       5     1
3       23        34      5      10      2     8
4        4        12      6       4      3     1

EXPECTED RESULT
DAY    ID1      ID2      A_1    A_2    B_1    B_2    X
2       5         4       0      2       5     1     0
1       20        10      6      4       2     10    1
3        4        12      6       4      3     1     0
4       23        34      5      10      2     8     0

我的第一次尝试是做一个样本,然后从主df中减去样本中的行。然后更改2个表中其中一个表中的每个名称列。

1 个答案:

答案 0 :(得分:2)

这应该可以在基础R中使用:

set.seed(16)
df1 <- apply(df[sample(nrow(df)),],1,function(x) {
  s <- sample(2)
  y <- c(x[1],x[s+1],x[s+3],x[s+5])
  y["X"] <- !all(s == 1:2)
  y})

df1 <- setNames(as.data.frame(t(df1)),c(names(df),"X"))
df1
#   DAY ID1 ID2 A_1 A_2 B_1 B_2 X
# 3   3  34  23  10   5   8   2 1
# 1   1  10  20   4   6  10   2 0
# 4   4  12   4   4   6   1   3 1
# 2   2   5   4   0   2   5   1 0

sample(2)随机播放了矢量1:2。在每次迭代时,都会发生一个新的采样实例。

它可以等于c(1,2)c(2,1)

因此:

  • x[s+1]可以是c(x[2],x[3])c(x[3],x[2])
  • x[s+3]可以是c(x[4],x[5])c(x[5],x[4])
  • x[s+5]可以是c(x[6],x[7])c(x[7],x[6])

他们都在一起切换或完全没有,因为他们都使用相同的s