表的data.table与表的data.frame非常不同

时间:2013-08-22 21:13:31

标签: r data.table

我知道tablenot the preferred way,可将频率表格设为data.table。但是假设我有table,无论出于何种原因,我想要转换为data.tabledata.table转换的效果与data.frame转换无效:

require(data.table)
tab <- table(1:101)
DF.tab <- data.frame(tab)
DT.tab <- data.table(tab)

data.frame会将table数据转换为data.frame,而data.table会尝试将原始table对象存储为列。 (我已使用tab <- table(1:n)n的多个值进行了测试,以及其他示例。)

> str(DF.tab)
'data.frame':   101 obs. of  2 variables:
 $ Var1: Factor w/ 101 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ Freq: int  1 1 1 1 1 1 1 1 1 1 ...
> str(DT.tab)
Classes ‘data.table’ and 'data.frame':  101 obs. of  1 variable:
 $ tab: 'table' int [1:101(1d)] 1 1 1 1 1 1 1 1 1 1 ...
  ..- attr(*, "dimnames")=List of 1
  .. ..$ : chr  "1" "2" "3" "4" ...
 - attr(*, ".internal.selfref")=<externalptr> 

另请注意,虽然as.data.frame的工作方式与data.frame相同,但as.data.table完全失败:

> as.data.table(tab)
Error in UseMethod("as.data.table") : 
  no applicable method for 'as.data.table' applied to an object of class "table"

在一个看似非常密切相关的问题中,如果表格足够大(非正式测试表明.Dim > 100),我在尝试print时会遇到非常奇怪的错误:

> print(data.table(table(1:101)))
Error in prettyNum(.Internal(format(x, trim, digits, nsmall, width, 3L,  : 
  dims [product 5] do not match the length of object [10]

请注意,print(data.table(table(1:100)))没有错误,但只显示一列V1,而print(data.frame(table(1:100)))列有Var1Freq列。

有没有比data.table(data.frame(...))更好的解决方法?我最好总是试图完全避免table吗?并且print错误是由此直接引起的,还是更深层次?

1 个答案:

答案 0 :(得分:6)

使用as.data.frame.table调用data.frame(tbl-object)函数。它将类似矩阵的表对象转换为长格式数据对象。似乎没有as.data.table.table函数,并且可以说应该存在并且我同意它应该以与as.data.frame方法相同的方式运行,而不是从矩阵继承(这就是表格如何通常继承:

> data.table(matrix(1:10, 2))
   V1 V2 V3 V4 V5
1:  1  3  5  7  9
2:  2  4  6  8 10
> data.table(as.table(matrix(1:10, 2)))
Error in UseMethod("as.data.table") : 
  no applicable method for 'as.data.table' applied to an object of class "table"
> data.table(as.data.frame(as.table(matrix(1:10, 2))))
    Var1 Var2 Freq
 1:    A    A    1
 2:    B    A    2
 3:    A    B    3
 4:    B    B    4
 5:    A    C    5
 6:    B    C    6
 7:    A    D    7
 8:    B    D    8
 9:    A    E    9
10:    B    E   10

我认为这应该是一个功能请求,我不认为它与第二个问题有关。

你的第二个问题似乎是一个错误。 data.table作者最突出的是@MatthewDowle通常非常敏感,您应该考虑提交报告。