将任意类的列转换为另一个data.table

时间:2015-12-04 15:32:26

标签: r class data.table

问题:

我正在使用R.我希望2 data.tables(共享含义相同的列名)的共享列具有匹配的类。我正在努力将一种未知类的对象一般转换为另一个对象的未知类。

更多背景信息:

我知道如何在data.table中设置列的类,我知道关于 as函数。此外,这个问题并非完全data.table具体,但是当我使用data.table时,它经常出现。此外,假设所需的强制是可能的。

我有2个data.tables。它们共享一些列名称,这些列旨在表示相同的信息。对于表A和表B共享的列名,我希望A的类与B中的类(或其他方式)相匹配。

示例data.table s:

A <- structure(list(year = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), stratum = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L)), .Names = c("year", "stratum"), row.names = c(NA, -45L), class = c("data.table", "data.frame"))

B <- structure(list(year = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3), stratum = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L), bt = c(-9.95187702337873, -9.48946944434626, -9.74178662514147, -5.36167545158338, -4.76405522202426, -5.41964239804882, -0.0807951335119085, 0.520481719699774, 0.0393874225863578, 5.40557402913123, 5.47927931969583, 5.37228402911139, 9.82774396910091, 9.89629694010177, 9.98105260936272, -9.82469892896284, -9.42530210357904, -9.66171049964775, -5.17540952901709, -4.81859082470115, -5.3577146169737, -0.0685310909609001, 0.441383303157166, -0.0105897444321987, 5.24205882775199, 5.65773605162835, 5.40217185632441, 9.90299445851434, 9.78883672575814, 9.98747998379124, -9.69843398105195, -9.31530717395811, -9.77406601252698, -4.83080164375344, -4.89056304189872, -5.3904000267275, -0.121508487954861, 0.493798577602088, -0.118550709142654, 5.23654772583187, 5.87760447006892, 5.22478092346285, 9.90949768116403, 9.85433376398086, 9.91619307289277), yr = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3)), .Names = c("year", "stratum", "bt", "yr"), row.names = c(NA, -45L), class = c("data.table", "data.frame"), sorted = c("year", "stratum"))

这是他们的样子:

> A  
    year stratum
 1:    1       1
 2:    1       2
 3:    1       3
 4:    1       4

> B
    year stratum          bt yr
 1:    1       1 -9.95187702  1
 2:    1       2 -9.48946944  1
 3:    1       3 -9.74178663  1
 4:    1       4 -5.36167545  1

以下是课程:

> sapply(A, class)
     year   stratum 
"integer" "integer"

> sapply(B, class)
     year   stratum        bt        yr 
"numeric" "integer" "numeric" "numeric"

手动,我可以通过以下方式完成所需的任务:

A[,year:=as.numeric(year)]

当只有1列需要更改时,这很容易,您提前知道该列,并且提前知道所需的类。如果需要,将任意列转换为给定类也很容易。我也知道如何将任意列转换为任何给定的类。

我的失败尝试:

(编辑:这实际上有效;请参阅我的回答)

s2c <- function (x, type = "list") 
{
    as.call(lapply(c(type, x), as.symbol))
}

# In this case, I can assume all columns of A can be found in B
# I am also able to assume that the desired conversion is possible
B.class <- sapply(B[,eval(s2c(names(A)))], class) 
for(col in names(A)){
    set(A, j=col, value=as(A[[col]], B.class[col]))
}

但是这仍然会将年份列返回为"integer",而不是"numeric"

> sapply(A, class)
     year   stratum 
"integer" "integer" 

上例中的问题是class(as(1L, "numeric"))仍然返回"integer"。另一方面,class(as.numeric(1L))返回"numeric";但是,我事先并不知道需要as.numeric

问题,重申:

如果to / from 都未提前知道,如何使列类匹配?< / p>

其他想法:

在某种程度上,问题主要是关于任意类匹配。我经常使用data.table遇到这个问题,因为它对类匹配非常直言不讳。例如,在需要插入相应类型的NANA_real_ vs NA_character_等)时,我会遇到类似的问题,具体取决于列的类别(请参阅相关问题/问题) This Question)。

同样,这个问题可以看作是在事先不知道的任意类之间进行转换的一般问题。在过去,我使用switch编写函数来执行switch(class(x), double = as.numeric(...), character = as.character(...), ...之类的操作,但这看起来很难看。我在data.table的上下文中提出这个问题的唯一原因是因为我经常遇到这种类型功能的需要。

3 个答案:

答案 0 :(得分:5)

这是确保普通课程的一种非常粗略的方法:

library(magrittr)

cols = intersect(names(A), names(B))
r    = rbindlist(list(A = A, B = B[,cols,with=FALSE]), idcol = TRUE)
r[, (cols) := lapply(.SD, . %>% as.character %>% type.convert), .SDcols=cols]
B[, (cols) := r[.id=="B", cols, with=FALSE]]
A[, (cols) := r[.id=="A", cols, with=FALSE]]

sapply(A, class); sapply(B, class)
#      year   stratum 
# "integer" "integer" 
#      year   stratum        yr 
# "integer" "integer" "numeric" 

我不喜欢这个解决方案:

  • 我经常使用ID的所有整数代码(例如"00001""02995"),这会将这些代码强制转换为实际的整数,这很糟糕。
  • 谁知道这会对Datefactor这些花哨的课程有什么作用呢?如果你在读取数据后立即进行col-class规范化,这一点非常重要。我猜想。

数据:

# slightly tweaked from OP
A <- setDT(structure(list(year = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), stratum = c(1L, 2L, 
3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 
6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 
9L, 10L, 11L, 12L, 13L, 14L, 15L)), .Names = c("year", "stratum"), row.names = 
c(NA, -45L), class = c("data.frame")))

B <- setDT(structure(list(year = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 
3, 3, 3, 3), stratum = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 
14L, 15L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 1L, 
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L), yr = c(1, 1, 1, 
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 
3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3)), .Names = c("year", "stratum", 
"yr"), row.names = c(NA, -45L), class = c("data.frame")))

评论。如果您有针对magrittr的内容,请使用function(x) type.convert(as.character(x))代替. %>%位。

答案 1 :(得分:5)

不是很优雅,但你可以建造&#39;这样的var spawn = require('child_process').spawn; var child = spawn('main.exe'); child.stdin.end('12 34 56'); child.stdout.on('data', (data) => { console.log(data); }); child.on('close', (code) => console.log('Exit code: ' + code)); 调用:

as.*

答案 2 :(得分:1)

基于this question中的讨论以及this answer中的评论,我认为我可能已经做对了,只是出现了奇怪的例外。

请注意,该类不会更改,但技术性是无关紧要的(对于我提出问题的特定用例)。下面我展示了我的“失败的方法”,但是通过完成合并以及合并的data.table中的列的类,我们可以看到该方法的工作原理:整数将被提升。

s2c <- function (x, type = "list") 
{
    as.call(lapply(c(type, x), as.symbol))
}

# In this case, I can assume all columns of A can be found in B
# I am also able to assume that the desired conversion is possible
B.class <- sapply(B[,eval(s2c(names(A)))], class)
for(col in names(A)){
    set(A, j=col, value=as(A[[col]], B.class[col]))
}

# Below here is new from what I tried in question
AB <- data.table:::merge.data.table(A, B, all=T, by=c("stratum","year"))

sapply(AB, class)
  stratum      year        bt        yr 
"integer" "numeric" "numeric" "numeric" 

虽然这个问题没有解决问题中的问题,但我想我会发帖指出,在许多情况下,将"integer"转换为"numeric"失败可能不是问题,所以这是一个直截了当的,虽然是间接的解决方案。