Spark Thrift Server和Tableau

时间:2016-09-14 13:15:13

标签: apache-spark thrift tableau

我使用Samba ODBC成功地将Tableau与Spark Thrift Server集成在一起。我已经尝试在初始SQL 期间使用cache table并且性能一直很好。我现在正在寻找一种方法来缓存和取消缓存一些常用表,当它们通过我们的数据管道进行更新时。

我面临的问题是,通过Tableau完成的缓存表将在thrift服务器的生命周期内保留在缓存中,但是当我编写数据pipleline进程并提交spark作业时,它将使用不同的spark上下文。 任何人都可以建议我如何通过后端进程连接到thrift服务器上下文。

  1. 有没有办法从spark-submit或spark shell重用thrift服务?
  2. 在我的数据管道的末尾,调用一个连接到thrift服务并刷新缓存的简单shell脚本是个好主意吗?
  3. 注意:我的后端和BI工具都在使用相同的群集,因为我在启动thrift服务以及提交后端作业时使用了相同的纱线群集。

    谢谢,Jayadeep

1 个答案:

答案 0 :(得分:1)

您可以尝试使用beeline使用相同的网址连接到同一群集上的Thrift服务。证书。数据管道完成运行后

UNCACHE TABLE MyTable;
CACHE TABLE MyTable;