spark mllib包是否会对数据进行洗牌。我一直在对数据使用randomSplit,但是,查看它看起来像它具有相同顺序的分割。
有没有办法在拆分数据之前对数据进行混洗?
答案 0 :(得分:2)
我认为你在分割时混淆了随机种子的实际数据混乱。如果您将拆分种子设置为常量,让我们说每个示例11L,您将始终获得相同的拆分。
正如@ zero323所述,Mllib只是通过遍历每个分区来获取随机样本。
有没有办法在拆分数据之前对其进行随机播放?
这取决于具体情况。您可以随时重新分区或按随机值排序,但它是
因此,我的方法是对分裂种子进行迭代和屈服。这是交叉验证的主要原则。这样,您可以根据您正在执行的评估步骤获得最佳种子。而且你有可重复的样本,但这种方法非常昂贵。
我希望这会有所帮助。