我有一个工作流程,可以从配置单元表中提取训练数据(1-10M行)并拟合模型。
我还有另一个表,该表具有超过1亿行,可以使用mllib中的transform(predict)函数,但我想将这些结果直接写回一个配置单元表。
工作流程:
training = spark.sql("select * from training_data limit 1000000")
allData = pipeline.fit(training_data).transform(training_data)
allData.cache()
rf = RF(labelCol='label', featuresCol='features',numTrees=200)
fit = rf.fit(allData)
scoring = spark.sql("select * from scoring_table")
allData_Scoring = pipeline.fit(scoring).transform(scoring)
transformed = fit.transform(allData_Scoring)
results = transformed.select(['probability', 'label'])
我想用id键和评分表中的其他两列将结果对象写回配置单元。
什么是最好的方法?