我有一个数据集,每个数据点有三个标签。 例如:
7 0 0 0:0.588785046729 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1
这是一个使用libsvm格式的三个标签的数据点。但MLLib无法读取它,因此我将其转换为三点,如:
7 0:0.588785046729 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 <br>
0 0:0.588785046729 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 <br>
0 0:0.588785046729 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1
现在有一项任务我必须始终以相同的顺序同时处理这三种数据点。所以我将三种数据点加载到三个RDD中。在完整批次之后,所有订单都应该像正常的小批量学习一样进行洗牌。这可能吗? RDD中的数据是否有订单?或者我应该创建一个新的数据结构,而不是使用LabeledPoint
。