应用错误收集

我在Kubernetes上有一个独立的Spark集群，我想用它来在内存中加载一些临时视图，并使用Spark Thrift服务器通过JDBC公开它们。

通过提交Spark作业（在我的情况下为pyspark）并在同一作业中启动thrift服务器，我已经使其在不安全的情况下工作，因此我可以访问临时视图。

由于我需要公开一些敏感数据，因此我至少要应用一种身份验证机制。

我已经读了很多书，基本上可以看到两种方法：

PAM-不建议用于生产，因为某些关键文件需要具有root权限之外的用户的授予权限。
Kerberos-对于这种情况，它似乎是最合适的一种。

我的问题是： -对于独立的Spark群集（在K8s上运行），Kerberos是最好的方法吗？如果不是哪一个？ -如果Kerberos是最好的，那么在我不使用任何特定发行版（MapR，Hortonworks等）的情况下，特别是在我的情况下，很难找到一些指南或逐步说明如何设置Kerberos以与Spark Thrift服务器一起工作。

感谢您的帮助

如何在Spark独立集群上的Spark Thrift服务器上使用身份验证

0 个答案: