datastax,Spark和MLLIB

时间:2014-12-25 13:30:50

标签: cassandra apache-spark datastax-enterprise datastax

我有两个问题:

  1. 似乎Datastax企业附带的Spark不完全支持Spark的MLLIB。这导致可以使用Datastax Spark运行的算法存在相当大的局限性。 Datastax有没有计划在不久的将来全力支持MLLIB?如果是,何时?

  2. 是否可以在Datastax Cassandra旁边的集群中运行Apache Spark(不使用Datastax Spark)并在它们之间进行通信?如果是,这样做的最佳做法是什么?我找不到任何关于此的文件,如果您能指导我(如果有的话),我将不胜感激。

  3. 谢谢, 乙

1 个答案:

答案 0 :(得分:0)

  1. 我想是的。
  2. 让Spark工作节点与Cassandra(OLTP)节点在同一个盒子上运行。有一个单独的Spark Master(假设是独立模式)。如果需要进行故障转移,请使用Zookeeper运行另一个Spark Master。有关详细信息,请查看https://spark.apache.org/docs/latest/spark-standalone.html。这与运行apache spark和apache cassandra基本相同。 spark cassandra连接器https://github.com/datastax/spark-cassandra-connector是位置感知的,因此,在相同节点上运行spark worker和cassandra会带来巨大的好处。你确实失去了从DSE获得火花的自动容错能力,你必须设置一切,但它运行正常。例如,我在生产中使用apache spark和apache cassandra一段时间了。一个好处是,您不必等待DSE在新版本的spark发布时赶上。