cassandra - datastax，Spark和MLLIB

时间：2014-12-25 13:30:50

标签： cassandra apache-spark datastax-enterprise datastax

我有两个问题：

似乎Datastax企业附带的Spark不完全支持Spark的MLLIB。这导致可以使用Datastax Spark运行的算法存在相当大的局限性。 Datastax有没有计划在不久的将来全力支持MLLIB？如果是，何时？
是否可以在Datastax Cassandra旁边的集群中运行Apache Spark（不使用Datastax Spark）并在它们之间进行通信？如果是，这样做的最佳做法是什么？我找不到任何关于此的文件，如果您能指导我（如果有的话），我将不胜感激。

谢谢，乙

答案 0 :(得分：0)

我想是的。
让Spark工作节点与Cassandra（OLTP）节点在同一个盒子上运行。有一个单独的Spark Master（假设是独立模式）。如果需要进行故障转移，请使用Zookeeper运行另一个Spark Master。有关详细信息，请查看https://spark.apache.org/docs/latest/spark-standalone.html。这与运行apache spark和apache cassandra基本相同。 spark cassandra连接器https://github.com/datastax/spark-cassandra-connector是位置感知的，因此，在相同节点上运行spark worker和cassandra会带来巨大的好处。你确实失去了从DSE获得火花的自动容错能力，你必须设置一切，但它运行正常。例如，我在生产中使用apache spark和apache cassandra一段时间了。一个好处是，您不必等待DSE在新版本的spark发布时赶上。