根据其他数据框更改列类

时间:2018-03-27 16:58:52

标签: r dataframe dplyr data.table plyr

我有一个数据框,我正在尝试根据col_type转换dt的每个变量的类。 查找下面的示例了解更多细节。

> dt
  id <- c(1,2,3,4)
   a <- c(1,4,5,6)
   b <- as.character(c(0,1,1,4))
   c <- as.character(c(0,1,1,0))
   d <- c(0,1,1,0)
  dt <- data.frame(id,a,b,c,d, stringsAsFactors = FALSE)

> str(dt)
'data.frame':   4 obs. of  5 variables:
 $ id: num  1 2 3 4
 $ a : num  1 4 5 6
 $ b : chr  "0" "1" "1" "4"
 $ c : chr  "0" "1" "1" "0"
 $ d : num  0 1 1 0

现在,我正在尝试根据以下数据框转换每列的类。

> var  
  var <- c("id","a","b","c","d")
  type <- c("character","numeric","numeric","integer","character")
  col_type <- data.frame(var,type, stringsAsFactors = FALSE)


> col_type
  var      type
1  id character
2   a   numeric
3   b   numeric
4   c   integer
5   d character

我想在col_type数据框中将id转换为类提及,对所有其他列都是如此。

我的尝试:

setDT(dt)
for(i in 1:ncol(dt)){
  if(colnames(dt)[i]%in%col_type$var){
    a <- col_type[col_type$var==paste0(intersect(colnames(dt)[i],col_type$var)),]
    dt[,col_type$var[i]:=eval(parse(text = paste0("as.",col_type$type[i],"(",col_type$var[i],")")))]
  }

}

注意 - 我的解决方案有效,但速度非常慢,我想知道我是否可以更有效,更干净地做到这一点。

建议将不胜感激。

2 个答案:

答案 0 :(得分:1)

我会使用从colClasses表派生的col_type参数读取数据:

library(data.table)
library(magrittr)
setDT(col_type)

res = capture.output(fwrite(dt)) %>% paste(collapse="\n") %>% 
  fread(colClasses = col_type[, setNames(type, var)])

str(res)
Classes ‘data.table’ and 'data.frame':  4 obs. of  5 variables:
 $ id: chr  "1" "2" "3" "4"
 $ a : num  1 4 5 6
 $ b : num  0 1 1 4
 $ c : int  0 1 1 0
 $ d : chr  "0" "1" "1" "0"
 - attr(*, ".internal.selfref")=<externalptr> 

如果您在最初读取数据时可以执行此操作,则会将其简化为...

 res = fread("file.csv", colClasses = col_type[, setNames(type, var)])

在没有data.table的情况下完成所有这些操作非常简单。

如果数据永远不会被读入R(作为RDS接收?),那么:

setDT(dt)
res = dt[, Map(as, .SD, col_type$type), .SDcols=col_type$var]

str(res)
Classes ‘data.table’ and 'data.frame':  4 obs. of  5 variables:
 $ id: chr  "1" "2" "3" "4"
 $ a : num  1 4 5 6
 $ b : num  0 1 1 4
 $ c : int  0 1 1 0
 $ d : chr  "0" "1" "1" "0"
 - attr(*, ".internal.selfref")=<externalptr> 

答案 1 :(得分:1)

考虑get()内的基础R Map,它可用于使用as.*函数从其字符串文字中检索函数。然后将向量列表绑定到数据帧中。

vec_list <- Map(function(v, t) get(paste0("as.", t))(dt[[v]]), col_type$var, col_type$type)

dt_new <- data.frame(vec_list, stringsAsFactors = FALSE)

str(dt_new)
# 'data.frame': 4 obs. of  5 variables:
# $ id: chr  "1" "2" "3" "4"
# $ a : num  1 4 5 6
# $ b : num  0 1 1 4
# $ c : int  0 1 1 0
# $ d : chr  "0" "1" "1" "0"

如果转化可能失败,可能会在get()中包裹tryCatch