我是Spark / Shark的新手,并且已经与三名Spark工作人员分道扬..我开始在相同的三台服务器上安装Shark,但我得出的结论是,可能不需要并且只需要一台Shark服务器 - 我在文档中找不到任何与此相关的内容。我是否只需要一台Shark服务器,因为Spark / Hive将会大幅提升,或者我是否需要将它分发给Spark所在的所有服务器?
答案 0 :(得分:0)
Shark是一个Spark应用程序。它就像一个WordCount或Spark Shell。您需要在将要发送查询的客户端计算机上拥有它。
如果工作机器上没有Shark JARS,则必须将它们附加到Spark Context。
鲨鱼服务器的工作方式有点像屏幕'在unix系统中。在这种情况下,Shark服务器是Spark中的一个应用程序。您使用Shark控制台连接到Shark服务器,发送查询,并代表您在Spark上由Shark服务器执行查询。
答案 1 :(得分:0)
假设Shark你指的是ThriftServer,那么你只需要一个Shark per(Spark)集群。
这甚至延续到了Spark 1.0.1,其中Shark已经退役,因为ThriftServer已经被带入Spark核心。