应用错误收集

我有一些与使用Apache Spark进行实时分析相关的问题。提交Spark应用程序时，存储在Cassandra数据库中的数据将通过机器学习算法（支持向量机）加载和处理。在新数据到达时，在整个Spark的流式传输扩展中，它们被持久存储在数据库中，重新训练现有数据集并执行SVM算法。此过程的输出也存储在数据库中。

Apache Spark的MLLib提供线性支持向量机的实现。如果我想要一个非线性SVM实现，我应该实现自己的算法，还是可以使用现有的库，如libsvm或jkernelmachines？这些实现不是基于Spark的RDD，有没有办法在不使用RDD集合从头开始实现算法的情况下做到这一点？如果不是，如果我想测试几种算法，那将是一项巨大的努力。
MLLib是否在执行SVM算法之前提供了开箱即用的数据扩展工具？第2.2节

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

在对新数据集进行流式处理时，是否需要重新训练孔数据集？有什么方法可以将新数据添加到已经训练好的数据中吗？

Apache Spark（MLLib）用于实时分析

1 个答案: