标签: machine-learning cassandra apache-spark
我有一些与使用Apache Spark进行实时分析相关的问题。提交Spark应用程序时,存储在Cassandra数据库中的数据将通过机器学习算法(支持向量机)加载和处理。在新数据到达时,在整个Spark的流式传输扩展中,它们被持久存储在数据库中,重新训练现有数据集并执行SVM算法。此过程的输出也存储在数据库中。
答案 0 :(得分:1)
分段回答你的问题,
来自文档,
..除了在每批数据上进行拟合外,以便模型不断更新以反映流中的数据。