我在本地机器上运行spark 2,hive,hadoop,我想使用spark sql从hive表中读取数据。
当我在默认hdfs://localhost:9000
运行hadoop时,它运行正常,但如果我更改为core-site.xml中的其他端口:
<name>fs.defaultFS</name>
<value>hdfs://localhost:9099</value>
在spark-shell中运行一个简单的sql spark.sql("select * from archive.tcsv3 limit 100").show();
会给我一个错误:
ERROR metastore.RetryingHMSHandler: AlreadyExistsException(message:Database default already exists)
.....
From local/147.214.109.160 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused;
.....
之前我得到了AlreadyExistsException,这似乎不会影响结果。
我可以通过创建一个新的sparkContext来实现它:
import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
sc.stop()
var sc = new SparkContext()
val session = SparkSession.builder().master("local").appName("test").enableHiveSupport().getOrCreate()
session.sql("show tables").show()
我的问题是,为什么最初的sparkSession / sparkContext没有得到正确的配置?我该如何解决?谢谢!
答案 0 :(得分:5)
如果您使用SparkSession
并且想要在spark上下文中设置配置,请使用session.sparkContext
val session = SparkSession
.builder()
.appName("test")
.enableHiveSupport()
.getOrCreate()
import session.implicits._
session.sparkContext.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
您无需导入SparkContext
或在SparkSession