如何在Spark独立集群上的Spark Thrift服务器上使用身份验证

时间:2019-07-10 03:00:22

标签: apache-spark security authentication kerberos spark-thriftserver

我在Kubernetes上有一个独立的Spark集群,我想用它来在内存中加载一些临时视图,并使用Spark Thrift服务器通过JDBC公开它们。

通过提交Spark作业(在我的情况下为pyspark)并在同一作业中启动thrift服务器,我已经使其在不安全的情况下工作,因此我可以访问临时视图。

由于我需要公开一些敏感数据,因此我至少要应用一种身份验证机制。

我已经读了很多书,基本上可以看到两种方法:

  • PAM-不建议用于生产,因为某些关键文件需要具有root权限之外的用户的授予权限。
  • Kerberos-对于这种情况,它似乎是最合适的一种。

我的问题是:  -对于独立的Spark群集(在K8s上运行),Kerberos是最好的方法吗?如果不是哪一个?  -如果Kerberos是最好的,那么在我不使用任何特定发行版(MapR,Hortonworks等)的情况下,特别是在我的情况下,很难找到一些指南或逐步说明如何设置Kerberos以与Spark Thrift服务器一起工作。

感谢您的帮助

0 个答案:

没有答案