Spark ML TrainValidationSplit具有预定义的训练和验证集

时间:2017-05-09 23:18:44

标签: scala apache-spark apache-spark-mllib data-science

Spark ML类TrainValidationSplit允许我设置setTrainRatio。但是,我想手动创建我的火车和测试装置。有没有办法在TrainValidationSplit中指定火车和测试集?

我使用的是Scala ML API。

谢谢!

1 个答案:

答案 0 :(得分:1)

抱歉,你不能。

至少在Spark 2.1.1中,编码和验证数据的定义是通过randomSplit进行的硬编码:

https://github.com/apache/spark/blob/branch-2.1/mllib/src/main/scala/org/apache/spark/ml/tuning/TrainValidationSplit.scala#L100-L101

您可能可以从TrainValidationClass继承并根据需要扩展fit函数。