标签: scala apache-spark apache-spark-mllib data-science
Spark ML类TrainValidationSplit允许我设置setTrainRatio。但是,我想手动创建我的火车和测试装置。有没有办法在TrainValidationSplit中指定火车和测试集?
我使用的是Scala ML API。
谢谢!
答案 0 :(得分:1)
抱歉,你不能。
至少在Spark 2.1.1中,编码和验证数据的定义是通过randomSplit进行的硬编码:
https://github.com/apache/spark/blob/branch-2.1/mllib/src/main/scala/org/apache/spark/ml/tuning/TrainValidationSplit.scala#L100-L101
您可能可以从TrainValidationClass继承并根据需要扩展fit函数。