我有以下示例数据
BR WT SW PO
1 4.0 7 2.0 1.0
2 12.0 5 4.0 2.0
3 8.0 7 5.0 8.6
4 9.0 3 5.6 9.0
5 1.0 10 6.0 5.0
6 6.0 2 7.5 12.0
7 7.0 3 10.0 15.0
8 4.5 10 12.0 6.0
我要做的是首先浏览每一列数据,然后在每列中:
(a)对每一列的每个值进行排名,并
(b)计算专栏中的观察总数。
然后,对于每一列,我正在尝试做一个数学表达式,即“rank /(count + 1)”,并将该结果赋给变量。这是我的代码到目前为止这个样本数据框(“df”)。
for (i in 1:ncol(df)) {
assign(paste("x",i,sep=""),rank(-df[,i],ties.method="first"))
assign(paste("y",i,sep=""),length(df[,i]))
assign(paste("z",i,sep=""),(x[i]/(y[i]+1)))
}
当我对每个“assign”行进行故障排除时,“x”和“y”变量工作正常:
> x1
[1] 7 1 3 2 8 5 4 6
> x2
[1] 3 5 4 6 1 8 7 2
> x3
[1] 8 7 6 5 4 3 2 1
> x4
[1] 8 7 4 3 6 2 1 5
y1:4(在这种情况下)工作正常,都导致值为8.然而,x [i] /(y [i] +1)的操作会导致以下错误:
Error in assign(paste("z", i, sep = ""), (x[i]/(y[i] + 1))) :
object 'y' not found
有人有什么想法吗?一旦我计算出这个新的“z [i]”值,我该如何使用这些z值创建一个新的数据帧,以便我可以继续使用ggplot?
答案 0 :(得分:2)
有没有理由为什么这必须以循环方式完成?无论如何,使用您的数据
dat <- read.table(text = " BR WT SW PO
1 4.0 7 2.0 1.0
2 12.0 5 4.0 2.0
3 8.0 7 5.0 8.6
4 9.0 3 5.6 9.0
5 1.0 10 6.0 5.0
6 6.0 2 7.5 12.0
7 7.0 3 10.0 15.0
8 4.5 10 12.0 6.0", header = TRUE)
这会返回排名
r <- sapply(dat, function(x) rank(-x, ties.method = "first"))
> r
BR WT SW PO
[1,] 7 3 8 8
[2,] 1 5 7 7
[3,] 3 4 6 4
[4,] 2 6 5 3
[5,] 8 1 4 6
[6,] 5 8 3 2
[7,] 4 7 2 1
[8,] 6 2 1 5
由于length(dat[, i])
的{{1}}与i
相同,并且由nrow(dat)
给出,您可以忽略y
的分配并直接转到上一个操作:< / p>
> r / (nrow(dat) + 1)
BR WT SW PO
[1,] 0.7777778 0.3333333 0.8888889 0.8888889
[2,] 0.1111111 0.5555556 0.7777778 0.7777778
[3,] 0.3333333 0.4444444 0.6666667 0.4444444
[4,] 0.2222222 0.6666667 0.5555556 0.3333333
[5,] 0.8888889 0.1111111 0.4444444 0.6666667
[6,] 0.5555556 0.8888889 0.3333333 0.2222222
[7,] 0.4444444 0.7777778 0.2222222 0.1111111
[8,] 0.6666667 0.2222222 0.1111111 0.5555556
假设我理解你当然要做的事情......