如何将预测从PySpark模型写回Hive / Impala表?

时间:2018-09-03 11:57:42

标签: hive pyspark apache-spark-mllib

我有一个工作流程,可以从配置单元表中提取训练数据(1-10M行)并拟合模型。

我还有另一个表,该表具有超过1亿行,可以使用mllib中的transform(predict)函数,但我想将这些结果直接写回一个配置单元表。

工作流程:

training = spark.sql("select * from training_data limit 1000000")

allData = pipeline.fit(training_data).transform(training_data)

allData.cache()

rf = RF(labelCol='label', featuresCol='features',numTrees=200)

fit = rf.fit(allData)

scoring = spark.sql("select * from scoring_table")

allData_Scoring = pipeline.fit(scoring).transform(scoring)

transformed = fit.transform(allData_Scoring)

results = transformed.select(['probability', 'label'])

我想用id键和评分表中的其他两列将结果对象写回配置单元。

什么是最好的方法?

0 个答案:

没有答案