我有一个列search_query [factor],movie_name [factor],点击[int]的数据集,大约有1,800,000行。当我使用reshape2包中的dcast函数尝试使用click作为值从搜索查询和电影名称创建矩阵时,我收到此错误:
train.matrix <- dcast(train, query ~ movie, value.var = "clicks")
Aggregation function missing: defaulting to length
Error in .Call("split_indices", index, group, as.integer(n)) :
negative length vectors are not allowed
In addition: Warning message:
In split_indices(seq_along(.value), .group, .n) :
NAs introduced by coercion
如果我将数据子集到100,000行,那么我可以从reshape2包中运行dcast。
train.matrix <- dcast(train[1:100000,], query ~ movie, value.var = "clicks")
电影的值数量为69,598,点击值均为正数且没有NA。运行版本2.15.1的R。
可能是什么问题,数据集太大了?如果是这样,我如何使用此数据集获得相同的结果?
提前非常感谢!