Question

我正在尝试测试Spark，因此我可以总结一些我在Cassandra中的数据。我已经完成了所有的DataStax教程，他们对于如何实际启用spark非常模糊。我能找到的唯一指示是，当您选择＆＃34; Analytics＆＃34;安装期间的节点。但是，我有一个现有的Cassandra节点，我不想使用不同的机器进行测试，因为我只是评估笔记本电脑上的所有内容。

是否可以在同一节点上启用Spark并处理任何性能影响？如果是这样，我如何启用它以便进行测试？

我在那里看到Spark的文件夹（尽管我并不是所有文件都存在），但当我检查它是否设置为Spark master时，它表示没有启用spark节点

dsetool sparkmaster

我正在使用Linux Ubuntu Mint。

我只是在寻找一种快速而肮脏的方法来获取我的数据平均值等等，而Spark似乎是要走的路，因为它有大量的数据，但我想要避免为托管多台机器而付费（至少目前在测试时）。

Answer 1

是的，即使Spark不在所有节点上，它也能够与群集进行交互。

包安装

Edit the /etc/default/dse file, and then edit the appropriate line 
to this file, depending on the type of node you want:
...

Spark nodes:
SPARK_ENABLED=1
HADOOP_ENABLED=0
SOLR_ENABLED=0

然后重新启动DSE服务

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseServ.html

焦油安装

在节点上停止DSE并使用以下命令重新启动它

From the install directory:
...
Spark only node: $ bin/dse cassandra -k - Starts Spark trackers on a cluster of Analytics nodes.

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseStandalone.html

Answer 2

通过更改 SPARK_ENABLED = 1 启用火花使用命令：sudo nano /usr/share/dse/resources/dse/conf/dse.default

在Cassandra上启用与同一节点上的Spark

2 个答案:

包安装

焦油安装