我有一个名为user_view的数据集,如下所示:
此数据中大约有4500万行。我将使用以下代码进行传播:
library(tidyverse)
spread_view <- spread(user_view, Seq, Channel)
当我在数据集的一个子集上运行此程序时,跨度很好。当我对整个数据集重新运行时,我开始看到有趣的结果。这些数字看起来更大,并且似乎分布不正确。
以前有没有人看过这种东西,还有没有其他途径可以使这些数据更广泛?
谢谢!
(对不起格式不好)
我尝试了许多不同的解决方案。包括删除竞争的程序包,在数据的子集上运行。
我希望能得到这个。而且它可以很好地工作在子集中,但是当扩展到4500万行时,它就混乱了……