我是Spark和PySpark Data Frames以及ML的新手。如何为ML库创建自定义交叉验证。我想要例如改变训练折叠形成的方式,例如, 分层分裂。
这是我目前的代码
numFolds = 10
predictions = []
lr = LogisticRegression()\
.setFeaturesCol("features")\
.setLabelCol('label')
# Grid search on LR model
lrparamGrid = ParamGridBuilder()\
.addGrid(lr.regParam, [0.01, 0.1, 0.5, 1.0, 2.0])\
.addGrid(lr.elasticNetParam, [0.0, 0.1, 0.5, 0.8, 1.0])\
.addGrid(lr.maxIter, [5, 10, 20])\
.build()
pipelineModel = Pipeline(stages=[lr])
evaluator = BinaryClassificationEvaluator()
cv = CrossValidator()\
.setEstimator(pipelineModel)\
.setEvaluator(evaluator)\
.setEstimatorParamMaps(lrparamGrid).setNumFolds(5)
# My own Cross-Validation with stratified splits
for i in range(numFolds):
# Use Stratified indexOfStratifiedSplits
trainingData = df[df.ID.isin(indexOfStratifiedSplits[i][0])]
testingData = df[df.ID.isin(indexOfStratifiedSplits[i][1])]
# Training and Grid Search
cvModel = cv.fit(trainingData)
predictions.append(cvModel.transform(testingData))
我希望像这样调用一个Cross-Validation类
cv = MyCrossValidator()\
.setEstimator(pipelineModel)\
.setEvaluator(evaluator)\
.setEstimatorParamMaps(lrparamGrid).setNumFolds(5)\
# Option 1
.setSplitIndexes(indexOfStratifiedSplits)
# Option 2
.setSplitType("Stratified",ColumnName)
我不知道最好的选择是创建一个扩展CrossValidation.fit或Passing Functions to Spark的类。这两个选项对我来说都是一个挑战,因为新手,我尝试复制GitHub代码,但我遇到了大量错误,特别是我不会说Scala,但这个管道在Scala API中速度更快。
虽然我有自己的功能以我想要的方式分割数据(基于sklearn),但我想一起使用Pipelines,grid search和cv,这样所有的排列都是分布式的,而不是在master中执行。那个循环用"我自己的交叉验证"仅使用部分群集节点,因为循环发生在主/驱动程序中。
任何Python或Scala API都可以,但最好是Scala。
由于
答案 0 :(得分:2)
在Python中,Sklearn为您提供sklearn.cross_validation.StratifiedKFold
功能。您可以使用旨在在PySpark上提供scikit-learn功能和API的Sparkit-learn。
答案 1 :(得分:0)
如果您希望使用PySpark的Stratified CrossValidator,也可以使用spark-stratifier。