我需要在Spark SQL中使用特定于Hive的功能,但是我必须使用已经部署的Apache Spark实例,遗憾的是,该实例没有编译Hive支持。
我需要做些什么才能将Hive支持纳入我的工作中?
我尝试使用spark.sql.hive.metastore.jars设置,但后来我总是遇到这些例外:
DataNucleus.Persistence:创建类型为org.datanucleus.properties.CorePropertyValidator的验证程序时出错 Class""的ClassLoaderResolver创作错误:{1}
和
org.datanucleus.exceptions.NucleusUserException:已指定持久性进程使用名称"数据核"的ClassLoaderResolver。然而,DataNucleus插件机制尚未发现这一点。请检查您的CLASSPATH和插件规范。
在设置中,我提供了一个spark-hive(排除spark-core和spark-sql)的胖罐及其所有可选的Hadoop依赖项(hadoop-archives的CDH特定版本,hadoop -common,hadoop-hdfs,hadoop-mapreduce-client-core,hadoop-yarn-api,hadoop-yarn-client和hadoop-yarn-common)。
我还使用值1.2.1
指定spark.sql.hive.metastore.version我在Scala 2.10上使用CDH5.3.1(使用Hadoop 2.5.0)和Spark 1.5.2