应用错误收集

我有一个工作流程，可以从配置单元表中提取训练数据（1-10M行）并拟合模型。

我还有另一个表，该表具有超过1亿行，可以使用mllib中的transform（predict）函数，但我想将这些结果直接写回一个配置单元表。

工作流程：

training = spark.sql("select * from training_data limit 1000000")

allData = pipeline.fit(training_data).transform(training_data)

allData.cache()

rf = RF(labelCol='label', featuresCol='features',numTrees=200)

fit = rf.fit(allData)

scoring = spark.sql("select * from scoring_table")

allData_Scoring = pipeline.fit(scoring).transform(scoring)

transformed = fit.transform(allData_Scoring)

results = transformed.select(['probability', 'label'])

我想用id键和评分表中的其他两列将结果对象写回配置单元。

什么是最好的方法？

如何将预测从PySpark模型写回Hive / Impala表？

0 个答案: