使用Spark Streaming和机器学习实时预测在线数据

时间:2017-07-30 01:54:22

标签: apache-spark spark-streaming apache-spark-mllib random-forest

如何为实时交易数据设计架构以便将其归类为欺诈?

使用Scala和Spark MLLib,使用历史数据开发,训练和测试随机森林分类器ML模型并保持不变。

实时交易数据正在使用Apache Kafka从一个主题和Spark Streaming处理并写入另一个主题,以便通过分类器ML模型进行预测。

我的担忧: 如何使用上述ML模式从Kafka主题中提供并获得预测的当前交易数据

使用已经过培训和测试的ML模型获取预测在线当前单一交易数据的最佳做法是什么?

欢迎任何设计建议。

1 个答案:

答案 0 :(得分:1)

您可以在训练后保存模型并将其用于实时api进行预测。例如, https://databricks.gitbooks.io/databricks-spark-reference-applications/content/twitter_classifier/predict.html 另一种解决方案可能是使用苏打水并使用POJO:https://github.com/h2oai/sparkling-water/tree/master/examples#step-by-step-through-weather-data-example