R - 按模式和目标计算模式和百分比

时间:2015-08-22 12:42:49

标签: r apply mode

我正在尝试计算数字列的模式。非数字的列应在向量中具有“NA”作为占位符。我还需要根据目标的百分比。一些示例数据:

c1= c("A", "B", "C", "C", "B", "C", "C") 
c2= factor(c(1, 1, 2, 2,1,2,1), labels = c("Y","N"))
d= as.Date(c("2015-02-01", "2015-02-03","2015-02-01","2015-02-05", "2015-02-03","2015-02-01", "2015-02-03"), format="%Y-%m-%d")
x= c(1,1,2,3,1,2,4) 
y= c(1,2,2,6,2,3,1) 
t= c(1,0,1,1,0,0,1)
df=data.frame(c1, c2, d, x, y,t) 
df

  c1 c2          d x y t
1  A  Y 2015-02-01 1 1 1
2  B  Y 2015-02-03 1 2 0
3  C  N 2015-02-01 2 2 1
4  C  N 2015-02-05 3 6 1
5  B  Y 2015-02-03 1 2 0
6  C  N 2015-02-01 2 3 0
7  C  Y 2015-02-03 4 1 1

我需要每个数字列的模式:

mode=as.numeric(c("NA","NA", "NA", 1,2,1))
mode
[1] NA NA NA  1  2  1

和行的百分比向量,其中t == 1,当列==模式

时的值
[1] NA NA NA  0.33  0.33  

和行的百分比向量,其中t == 1,当列中的值为!= mode

[1] NA NA NA  0.75  0.75

我怎样才能计算出这样的载体?

我找到的最好的模式是:

library(plyr)

mode_fun <- function(x) {
  mode0 <- names(which.max(table(x)))
  if(is.numeric(x)) return(as.numeric(mode0))
  mode0
}
kdf_mode=apply(kdf,2, numcolwise(mode_fun))

但如果有任何非数字列,则会出错。

1 个答案:

答案 0 :(得分:1)

我们可以使用sapply循环遍历'df'列,应用mode_fun获取输出vector('v1')。我们使用if/else条件为非数字列返回NA

 v1 <- unname(sapply(df, function(x) if(!is.numeric(x)) NA else mode_fun(x)))
 v1
 #[1] NA NA NA  1  2  1

对于第二种情况(我想我们不需要第6列,即't')。我们使用sapply遍历'df'列,使用if/else条件。在else条件下,我们会比较mode值是否等于列值(mode_fun(x)==x))。我们使用&来获取与mode对应的t==1等值的逻辑索引。获取sum并除以sum(v1)

unname(sapply(df[-6], function(x) if(!is.numeric(x)) {
            NA
            } else {
                v1 <- mode_fun(x)==x
                sum(v1 & t==1)/sum(v1) 
  } ))
 #[1]        NA        NA        NA 0.3333333 0.3333333

对于第三个,我们更改条件以获取列不等于mode的逻辑索引。与前一种情况一样。

unname(sapply(df[-6], function(x) if(!is.numeric(x)){
         NA 
         } else {
              v1 <- mode_fun(x)!=x
              sum(v1 & t==1)/sum(v1)
   } ))
 #[1]   NA   NA   NA 0.75 0.75

在我们计算'v1'之后,这也可以在不使用sapply循环的情况下完成。我们创建一个逻辑索引,其中列class为'numeric',列名不是't'('indx')。

indx <- sapply(df, is.numeric) &  names(df)!='t'

我们根据'indx'(df[indx]v1[indx])对'df'和'v1'进行子集化,通过使用vector复制col来确定长度。 col给出df[indx]中列的数字索引。然后我们检查子集数据集是否等于vector以给出逻辑矩阵。

indx1 <- df[indx]==v1[indx][col(df[indx])] 

与上一代码一样,我们使用&来检查'indx1'中的TRUE值是否也与't == 1 . Do colSums , divide by the colSums相对应of 'indx1', and concatenate ( c ) with the NA`元素'v1'

unname(c(v1[is.na(v1)], colSums(indx1& t==1)/colSums(indx1)))
#[1]        NA        NA        NA 0.3333333 0.3333333

同样,我们可以通过更改条件创建'indx2',然后像以前一样colSums

indx2 <- df[indx]!=v1[indx][col(df[indx])] 
unname(c(v1[is.na(v1)], colSums(indx2& t==1)/colSums(indx2)))
#[1]   NA   NA   NA 0.75 0.75