我能够从EMR上的spark作业分别连接到Redshift和Glue,但是当我想在spark作业中同时查询redshift表和胶目录时。当我在Spark Submit中使用EMR(/usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar)给定的jdbc驱动程序时。我遇到这个错误- pyspark.sql.utils.AnalysisException:u'java.lang.ExceptionInInitializerError:null;'
在HiveUtils之后:使用Spark类初始化HiveMetastoreConnection版本1.2.1。步骤。(应该在此步骤后与Glue交谈)
我的提交火花如下所示
spark-submit-打包com.databricks:spark-redshift_2.10:0.5.2 --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar,spark-redshift_2.10-2.0.0。 jar,minimal-json-0.9.4.jar t.py
示例代码
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory")\
.enableHiveSupport()\
.getOrCreate();
query_k = """
select * from table limit 10 """
s3TempDir = "s3://path"
jdbcURL = "jdbc:redshift:XXX!"
df = spark.read.format("com.databricks.spark.redshift")\
.option("url", jdbcURL)\
.option("tempdir", s3TempDir)\
.option("query", query_k).load()
df.show()