默认情况下,可视查询spark作业以本地模式运行。当您使用更大的数据块运行Kylo进行生产时,Visual Query的建议设置是什么?
由于 沙市
答案 0 :(得分:3)
为此你可以在这里编辑: -
/opt/kylo/kylo-services/bin/run-kylo-spark-shell.sh
" spark-submit"。
答案 1 :(得分:0)
我尝试在纱线群集模式下运行视觉查询火花作业,它似乎工作正常。以下是我对每种模式的观察。
本地模式:它运行良好,但它会对边缘节点施加压力,因为只能从边缘节点查找内存和内核。
yarn-client :为避免边缘节点限制,我们配置可视查询以运行yarn客户端模式。但有一天,我们遇到磁盘故障,视觉查询失败,因为它丢失了文件未找到异常。令人惊讶的是,它没有在不同节点上寻找另一个文件副本(HDFS复制概念)。
yarn-cluster:此模式为我们提供了更好的性能,我们能够避免文件未找到异常。但只有我们面临的挑战是因为视觉查询的设计方法。当您启动用于可视查询的spark shell服务器时,它会创建一个spark上下文,并且在您终止spark服务器应用程序之前,该上下文永远不会消失作为这种影响,在纱线资源管理器UI上,您将始终发现thinkbig spark服务器正在运行,并且在您终止应用程序之前永远不会释放资源。
可能我们应该尝试增强视觉查询,因为它是Kylo中最酷的功能之一。