我在设置我的spark环境以从kerberized HDFS文件位置读取时遇到问题。
目前我已尝试执行以下操作:
def ugiDoAs[T](ugi: Option[UserGroupInformation])(code: => T) = ugi match {
case None => code
case Some(u) => u.doAs(new PrivilegedExceptionAction[T] {
override def run(): T = code
})
}
val sparkConf = defaultSparkConf.setAppName("file-test").setMaster("yarn-client")
val sc = ugiDoAs(ugi) {new SparkContext(conf)}
val file = sc.textFile("path")
在创建Spark上下文时失败,出现以下错误:
Exception in thread "main" org.apache.hadoop.security.AccessControlException: SIMPLE authentication is not enabled. Available:[TOKEN, KERBEROS]
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:422)
at org.apache.hadoop.yarn.ipc.RPCUtil.instantiateException(RPCUtil.java:53)
at org.apache.hadoop.yarn.ipc.RPCUtil.unwrapAndThrowException(RPCUtil.java:104)
at org.apache.hadoop.yarn.api.impl.pb.client.ApplicationClientProtocolPBClientImpl.getClusterMetrics(ApplicationClientProtocolPBClientImpl.java:155)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)
有没有人有一个关于如何让spark连接到kerberized HDFS位置的简单示例?
我知道spark需要处于Yarn模式才能使其正常工作,但登录方法似乎并没有在这方面起作用。虽然我知道用户组信息(ugi)对象是有效的,因为我用它连接到同一对象和HBase中的ZK。
答案 0 :(得分:0)
确认配置conf / spark-env.sh或:
export HADOOP_CONF_DIR=/etc/hadoop/conf
这必须指向群集的客户端配置。
答案 1 :(得分:0)
该错误意味着客户端正在尝试与未经身份验证的HDFS进行通信并且被拒绝。通过记录确保UGI真的是安全的,并在进入spark之前做一些基本的hadoop文件系统代码;这应该更容易追踪