将变量添加到包含每行最大值的数据框

时间:2010-06-18 16:07:15

标签: r

我想在数据框(df)中添加一个变量(列),每行包含第2到第26列的该行的最大值。

对于第一行,代码为:

df$max[1] <- max(df[1,2:26])

我正在寻找一种方法来概括第1行到第865行。如果我给:

df$max[1:865] <- max(df[1:865, 2:26])

我得到变量df$max的所有行的总体最大值。

3 个答案:

答案 0 :(得分:37)

您可以使用apply。例如:

df[, "max"] <- apply(df[, 2:26], 1, max)

这是一个基本的例子:

> df <- data.frame(a=1:50, b=rnorm(50), c=rpois(50, 10))
> df$max <- apply(df, 1, max)
> head(df, 2)
  a          b  c max
1 1  1.3527115  9   9
2 2 -0.6469987 20  20
> tail(df, 2)
    a          b  c max
49 49 -1.4796887 10  49
50 50  0.1600679 13  50

答案 1 :(得分:32)

pmax的矢量化版本:

df$max <- do.call(pmax, df[2:26])

答案 2 :(得分:3)

以下是另外两种方法。基础R中的第一个是将矩阵提取NgForm$ip = '74.125.230.195'; $details = json_decode(file_get_contents("https://api.ipdata.co/{$ip}?api-key=test")); echo $details->country_name; //United States echo $details->city; //Mountain View $details = json_decode(file_get_contents("https://api.ipdata.co/{$ip}?api-key=test/zh-CN")); echo $details->country_name; //美国 结合起来,它返回一个向量索引每行中最大值的列位置。

[

max.col构造一个矩阵,索引每行的最大值的位置,df$max <- df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))] 使用它来提取此值。

第二种是在cbind包中使用[。这看起来像

rowMaxs

让我们做一些基准测试。

matrixStats

同时将library(matrixStats) rowMaxs(as.matrix(df[2:26]))) 包中的# data.frame with 1000 observations and 26 variables set.seed(1234) df <- data.frame(id=paste0(letters[-1], 1:40), matrix(rnorm(25000L, 5L, 10L), 1000L)) 函数添加到混合中。

rowMaxs

因此,matrixStats是明显的赢家,然后是library(matrixStats) library(microbenchmark) microbenchmark(apply=apply(df[, 2:26], 1, max), pmax=do.call(pmax, df[2:26]), max.colSub=df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))], rowMaxs=rowMaxs(as.matrix(df[2:26]))) Unit: microseconds expr min lq mean median uq max neval cld apply 1610.540 1786.5905 2193.5334 1863.5680 1990.4380 6915.999 100 c pmax 354.382 364.6455 380.1720 373.3405 385.4580 567.923 100 a max.colSub 604.416 651.7430 822.6015 664.7155 681.2510 3086.512 100 b rowMaxs 243.762 264.0040 320.2350 277.9750 290.5190 2328.712 100 a ,然后是rowMaxs,矩阵提取,并且pmax位于包的尾端。

对于包含10000行和26列的data.frame,我们得到了类似的故事:

max.col

上面的代码返回

apply