我是Spark for R的新手,我有一个大型数据集,其中一列是类类型,例如我的数据如下所示:
Class Number Value
1 a 1 100
2 a 3 1000
3 b 2 430
4 c 4 123
5 c 2 54
6 c 7 1
我希望使用Spark分类,因为Class类型。对于这个例子,我想获得3个这样的火花数据帧:
Class Number Value
1 a 1 100
2 a 3 1000
Class Number Value
1 b 2 430
Class Number Value
1 c 4 123
2 c 2 54
3 c 7 1
我可以应用for
并且每次都为我的所有类类型过滤我的数据,但是在spark中计算需要太多时间。你们有什么建议吗?