我正在尝试测试Spark,因此我可以总结一些我在Cassandra中的数据。我已经完成了所有的DataStax教程,他们对于如何实际启用spark非常模糊。我能找到的唯一指示是,当您选择" Analytics"安装期间的节点。但是,我有一个现有的Cassandra节点,我不想使用不同的机器进行测试,因为我只是评估笔记本电脑上的所有内容。
是否可以在同一节点上启用Spark并处理任何性能影响?如果是这样,我如何启用它以便进行测试?
我在那里看到Spark的文件夹(尽管我并不是所有文件都存在),但当我检查它是否设置为Spark master时,它表示没有启用spark节点
dsetool sparkmaster
我正在使用Linux Ubuntu Mint。
我只是在寻找一种快速而肮脏的方法来获取我的数据平均值等等,而Spark似乎是要走的路,因为它有大量的数据,但我想要避免为托管多台机器而付费(至少目前在测试时)。
答案 0 :(得分:3)
是的,即使Spark不在所有节点上,它也能够与群集进行交互。
Edit the /etc/default/dse file, and then edit the appropriate line
to this file, depending on the type of node you want:
...
Spark nodes:
SPARK_ENABLED=1
HADOOP_ENABLED=0
SOLR_ENABLED=0
然后重新启动DSE服务
http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseServ.html
在节点上停止DSE并使用以下命令重新启动它
From the install directory:
...
Spark only node: $ bin/dse cassandra -k - Starts Spark trackers on a cluster of Analytics nodes.
答案 1 :(得分:0)
通过更改 SPARK_ENABLED = 1 启用火花
使用命令:sudo nano /usr/share/dse/resources/dse/conf/dse.default