reshape2大型数据集上的dcast错误

时间:2012-09-01 20:09:25

标签: r reshape reshape2

我有一个列search_query [factor],movie_name [factor],点击[int]的数据集,大约有1,800,000行。当我使用reshape2包中的dcast函数尝试使用click作为值从搜索查询和电影名称创建矩阵时,我收到此错误:

    train.matrix <- dcast(train, query ~ movie, value.var = "clicks")

    Aggregation function missing: defaulting to length
    Error in .Call("split_indices", index, group, as.integer(n)) : 
       negative length vectors are not allowed
    In addition: Warning message:
    In split_indices(seq_along(.value), .group, .n) :
      NAs introduced by coercion

如果我将数据子集到100,000行,那么我可以从reshape2包中运行dcast。

    train.matrix <- dcast(train[1:100000,], query ~ movie, value.var = "clicks")

电影的值数量为69,598,点击值均为正数且没有NA。运行版本2.15.1的R。

可能是什么问题,数据集太大了?如果是这样,我如何使用此数据集获得相同的结果?

提前非常感谢!

0 个答案:

没有答案