我在Kubernetes上有一个独立的Spark集群,我想用它来在内存中加载一些临时视图,并使用Spark Thrift服务器通过JDBC公开它们。
通过提交Spark作业(在我的情况下为pyspark)并在同一作业中启动thrift服务器,我已经使其在不安全的情况下工作,因此我可以访问临时视图。
由于我需要公开一些敏感数据,因此我至少要应用一种身份验证机制。
我已经读了很多书,基本上可以看到两种方法:
我的问题是: -对于独立的Spark群集(在K8s上运行),Kerberos是最好的方法吗?如果不是哪一个? -如果Kerberos是最好的,那么在我不使用任何特定发行版(MapR,Hortonworks等)的情况下,特别是在我的情况下,很难找到一些指南或逐步说明如何设置Kerberos以与Spark Thrift服务器一起工作。
感谢您的帮助