我不知道这是integer64
(来自bit64
)问题,还是融化问题(来自reshape2
,但是如果我尝试重塑一个data.frame包含integer64数据然后在进程中销毁类信息,它将恢复为双重表示:
library(bit64)
library(reshape2)
DF = data.frame(I =letters, Num1 = as.integer64(1:26), Num2 = as.integer64(1:26))
DFM = melt(DF, id.vars = "I")
sapply(DF, class)
sapply(DFM, class)
给出:
> sapply(DF, class)
I Num1 Num2
"factor" "integer64" "integer64"
> sapply(DFM, class)
I variable value
"factor" "factor" "numeric"
因为integer64是下面的两倍,数据“已损坏”
> DF
I Num1 Num2
1 a 1 1
2 b 2 2
3 c 3 3
4 d 4 4
5 e 5 5
...
> DFM
I variable value
1 a Num1 4.940656e-324
2 b Num1 9.881313e-324
3 c Num1 1.482197e-323
4 d Num1 1.976263e-323
5 e Num1 2.470328e-323
6 f Num1 2.964394e-323
造成这种情况的原因是什么?这是integer64
问题还是melt
问题?在创建类时可以做些什么来避免这种事情?
答案 0 :(得分:5)
这似乎是对软件包的限制,它在文档here on page 9中也有提及。例如:
x <- data.frame(a=as.integer64(1:5), b=as.integer64(1:5))
> x
# a b
# 1 1 1
# 2 2 2
# 3 3 3
# 4 4 4
# 5 5 5
> unlist(x)
# a1 a2 a3 a4 a5 b1
# 4.940656e-324 9.881313e-324 1.482197e-323 1.976263e-323 2.470328e-323 4.940656e-324
# b2 b3 b4 b5
# 9.881313e-324 1.482197e-323 1.976263e-323 2.470328e-323
> as.matrix(x)
# a b
# [1,] 4.940656e-324 4.940656e-324
# [2,] 9.881313e-324 9.881313e-324
# [3,] 1.482197e-323 1.482197e-323
# [4,] 1.976263e-323 1.976263e-323
# [5,] 2.470328e-323 2.470328e-323
x <- as.integer64(1:5)
> is.vector(x)
# [1] FALSE
> as.vector(x)
# [1] 4.940656e-324 9.881313e-324 1.482197e-323 1.976263e-323 2.470328e-323
答案 1 :(得分:4)
重置课程似乎“正确”了结果,见下文。但是,正如讨论中提到的,如果数值还包含除integer64
之外的其他类型,则很可能无效。
> class(DFM$value) <- "integer64"
> DFM
I variable value
1 a Num1 1
2 b Num1 2
3 c Num1 3
答案 2 :(得分:3)
我也可以重现它。
不是解决方案,但问题似乎发生在melt.data.frame
函数的以下行:
value <- unlist(unname(data[var$measure]))
在您的示例中,这会导致:
unlist(unname(DF[c("Num1","Num2")]))
unlist
调用会更改数据类。正如帮助页面所说:
The output type is determined from the highest type of the
components in the hierarchy NULL < raw < logical < integer < real
< complex < character < list < expression, after coercion of
pairlists to lists.