Question

我使用Samba ODBC成功地将Tableau与Spark Thrift Server集成在一起。我已经尝试在初始SQL 期间使用cache table并且性能一直很好。我现在正在寻找一种方法来缓存和取消缓存一些常用表，当它们通过我们的数据管道进行更新时。

我面临的问题是，通过Tableau完成的缓存表将在thrift服务器的生命周期内保留在缓存中，但是当我编写数据pipleline进程并提交spark作业时，它将使用不同的spark上下文。任何人都可以建议我如何通过后端进程连接到thrift服务器上下文。

注意：我的后端和BI工具都在使用相同的群集，因为我在启动thrift服务以及提交后端作业时使用了相同的纱线群集。

谢谢，Jayadeep

Answer 1

您可以尝试使用beeline使用相同的网址连接到同一群集上的Thrift服务。证书。数据管道完成运行后

UNCACHE TABLE MyTable;
CACHE TABLE MyTable;