我正在尝试将一个(非常)长的表重新整形为一个宽(非常稀疏)的表。
尺寸:
dim(data)
[1] 16146436 3
如果我尝试执行标准dcast
操作,则由于内存不足而失败:
datac <- dcast(formula=gene ~ sample, value.var="Coverage", data=data)
Error: cannot allocate vector of size 23399.6 Gb
有关进行dcast
运行的建议还是针对大型稀疏数据集优化的备选方案?