Question

我想遍历数据帧的每一行，并找出哪三列名称具有该行的前三个最大值。

我确实有使用for循环执行此操作的代码，但是它太慢了。有没有人可以更快地完成与for循环相同的操作？

dataframe2=dataframe
colnames=colnames(dataframe)
dfLength=length(rownames(dataframe))
for(x in 1:dfLength){
   vector=as.numeric(dataframe[x,1:length(colnames)])
   decreasing=order(vector, decreasing = TRUE)
   dataframe2[x,"sector_1"]=colnames[(decreasing[1])+1]
   dataframe2[x,"sector_2"]=colnames[(decreasing[2])+1]
   dataframe2[x,"sector_3"]=colnames[(decreasing[3])+1]
}

Answer 1

如果首先将数字列转换为.open()，则容易得多。如果您有一个名为matrix的框架，则可以从以下开始：

myframe

其中m <- as.matrix(myframe[numeric_columns]) cn <- colnames(myframe[numeric_columns])是整数（这里是我的假设）或列名的向量。

由于我没有您的数据，因此我将自己制作：

numeric_columns

此代码段本身以数字形式返回每行的前3列：

set.seed(2)
m <- matrix(sample(100), nr=10, nc=10)
cn <- paste0("Z", 1:10)
colnames(m) <- cn
m
#       Z1  Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10
#  [1,] 19  50 53  1 88 72 79  9  8  29
#  [2,] 70  22 31 74 63 95 47 45 21  11
#  [3,] 57  67 66 56 81 33 24  2 49  69
#  [4,] 17  16 12 59 61 64 98  5 38  23
#  [5,] 91  35 27 34 80 94 40 52  4  36
#  [6,] 90  73 82 41 92 75 87 54 25  60
#  [7,] 13  83 77 55 68 86 14 32 93  28
#  [8,] 78 100 76 18 84 43 39 20 96  15
#  [9,] 44  37 99 42 85 26 58 65 89   6
# [10,] 51   7 10 71 62 30  3 46 48  97

我们可以使用以下方法将它们转换为名称矩阵：

t(apply(m, 1, function(a) order(-a)[1:3]))
#       [,1] [,2] [,3]
#  [1,]    5    7    6
#  [2,]    6    4    1
#  [3,]    5   10    2
#  [4,]    7    6    5
#  [5,]    6    1    5
#  [6,]    5    1    7
#  [7,]    9    6    2
#  [8,]    2    9    5
#  [9,]    3    9    5
# [10,]   10    4    5

编者注：如果您确实在许多列中都有可比较的数据，那么对于许多R包来说，将其以“长”格式有意义是有意义的，在该格式中，您有一列的名称，而一列的值。扩展以上数据，我将添加一个“ id”列（因为您的数据可能包含一个关键字段）：

top3 <- t(apply(m, 1, function(a) order(-a)[1:3]))
top3[] <- cn[top3]
top3
#       [,1]  [,2]  [,3]
#  [1,] "Z5"  "Z7"  "Z6"
#  [2,] "Z6"  "Z4"  "Z1"
#  [3,] "Z5"  "Z10" "Z2"
#  [4,] "Z7"  "Z6"  "Z5"
#  [5,] "Z6"  "Z1"  "Z5"
#  [6,] "Z5"  "Z1"  "Z7"
#  [7,] "Z9"  "Z6"  "Z2"
#  [8,] "Z2"  "Z9"  "Z5"
#  [9,] "Z3"  "Z9"  "Z5"
# [10,] "Z10" "Z4"  "Z5"

转换为“长”格式（此处使用myframe <- as.data.frame(cbind(id=100L + 1:10, m)) head(myframe) # id Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 # 1 101 19 50 53 1 88 72 79 9 8 29 # 2 102 70 22 31 74 63 95 47 45 21 11 # 3 103 57 67 66 56 81 33 24 2 49 69 # 4 104 17 16 12 59 61 64 98 5 38 23 # 5 105 91 35 27 34 80 94 40 52 4 36 # 6 106 90 73 82 41 92 75 87 54 25 60包）：

tidyverse

这建议使用干净的head(tidyr::gather(myframe, Znum, Zval, -id)) # id Znum Zval # 1 101 Z1 19 # 2 102 Z1 70 # 3 103 Z1 57 # 4 104 Z1 17 # 5 105 Z1 91 # 6 106 Z1 90 tail(tidyr::gather(myframe, Znum, Zval, -id)) # id Znum Zval # 95 105 Z10 36 # 96 106 Z10 60 # 97 107 Z10 28 # 98 108 Z10 15 # 99 109 Z10 6 # 100 110 Z10 97管道来获得每个dplyr的前三名：

id

当然，这是解决问题的另一种方式，但是根据您的其他工作，它可能会在其他地方提供一些简化和收益。

是他们的R函数，它遍历数据帧的行并返回每行的最高3列值

1 个答案: