有谁知道常见问题解答(https://cloud.google.com/dataproc/docs/resources/faq)中的以下内容实际意味着什么?
“数据可以在传输到集群和从集群传输时进行用户加密 群集创建或作业提交。“
在群集创建期间,我找不到启用加密的选项。这基本上是指,自己配置所有组件以确保通信加密。
我们很想知道Spark / Hive / Tez Jobs在执行作业时是否使用加密通信,或通过jdbc连接连接到Hive。
是否存在任何现有的初始化操作,或者此声明是否基本上意味着一切由您决定?
答案 0 :(得分:1)
我认为在与GCP API交谈时谈论的是身份验证/授权/加密。重要的是,如果您的数据位于GCS或BigQuery中,则数据传输是安全的。此外,所有与Dataproc控制平面的通信(例如,创建集群,提交作业)都是安全的。
群集中的通信不安全,但 基本上是空隙的,这是正确的。节点到节点的通信通过隔离的VPC network上的内部IP进行。 Dataproc有关于如何配置防火墙规则的guidance。
您还可以使用Dataproc private IP clusters来避免在VM上使用外部IP地址。
我不知道设置Kerberos的任何初始化操作 - 所以是的,你必须DIY。