在Cassandra上启用与同一节点上的Spark

时间:2015-05-08 23:31:06

标签: cassandra apache-spark datastax datastax-enterprise

我正在尝试测试Spark,因此我可以总结一些我在Cassandra中的数据。我已经完成了所有的DataStax教程,他们对于如何实际启用spark非常模糊。我能找到的唯一指示是,当您选择" Analytics"安装期间的节点。但是,我有一个现有的Cassandra节点,我不想使用不同的机器进行测试,因为我只是评估笔记本电脑上的所有内容。

是否可以在同一节点上启用Spark并处理任何性能影响?如果是这样,我如何启用它以便进行测试?

我在那里看到Spark的文件夹(尽管我并不是所有文件都存在),但当我检查它是否设置为Spark master时,它表示没有启用spark节点

  

dsetool sparkmaster

我正在使用Linux Ubuntu Mint。

我只是在寻找一种快速而肮脏的方法来获取我的数据平均值等等,而Spark似乎是要走的路,因为它有大量的数据,但我想要避免为托管多台机器而付费(至少目前在测试时)。

2 个答案:

答案 0 :(得分:3)

是的,即使Spark不在所有节点上,它也能够与群集进行交互。

包安装

Edit the /etc/default/dse file, and then edit the appropriate line 
to this file, depending on the type of node you want:
...

Spark nodes:
SPARK_ENABLED=1
HADOOP_ENABLED=0
SOLR_ENABLED=0

然后重新启动DSE服务

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseServ.html

焦油安装

在节点上停止DSE并使用以下命令重新启动它

From the install directory:
...
Spark only node: $ bin/dse cassandra -k - Starts Spark trackers on a cluster of Analytics nodes.

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseStandalone.html

答案 1 :(得分:0)

通过更改 SPARK_ENABLED = 1 启用火花 使用命令:sudo nano /usr/share/dse/resources/dse/conf/dse.default