我试图在spark(scala)中创建一个表,然后从两个现有数据框中插入值,但是我得到了这个例子:
Exception in thread "main" org.apache.spark.sql.AnalysisException: Hive support is required to CREATE Hive TABLE (AS SELECT);;
'CreateTable `stat_type_predicate_percentage`, ErrorIfExists
这是代码:
case class stat_type_predicate_percentage (type1: Option[String], predicate: Option[String], outin: Option[INT], percentage: Option[FLOAT])
object LoadFiles1 {
def main(args: Array[String]) {
val sc = new SparkContext("local[*]", "LoadFiles1")
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val warehouseLocation = new File("spark-warehouse").getAbsolutePath
val spark = SparkSession
.builder()
.appName("Spark Hive Example")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
import sqlContext.implicits._
import org.apache.spark.sql._
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.{StructType,StructField,StringType};
//statistics
val create = spark.sql("CREATE TABLE stat_type_predicate_percentage (type1 String, predicate String, outin INT, percentage FLOAT) USING hive")
val insert1 = spark.sql("INSERT INTO stat_type_predicate_percentage SELECT types.type, res.predicate, 0, 1.0*COUNT(subject)/(SELECT COUNT(subject) FROM MappingBasedProperties AS resinner WHERE res.predicate = resinner.predicate) FROM MappingBasedProperties AS res, MappingBasedTypes AS types WHERE res.subject = types.resource GROUP BY res.predicate,types.type")
val select = spark.sql("SELECT * from stat_type_predicate_percentage" )
}
我应该如何解决?
答案 0 :(得分:1)
---您必须在您的会话中启用蜂巢支持
val spark = new SparkSession
.Builder()
.appName("JOB2")
.master("local")
.enableHiveSupport()
.getOrCreate()
答案 1 :(得分:0)
这个问题可能有两个方面
对于您可能想要执行@Tanjin在注释中建议的操作,然后它可能会起作用(尝试将.config("spark.sql.catalogImplementation","hive")
添加到您的SparkSession.builder
中)
但是如果您实际上想使用现有的配置单元实例及其自身的元数据,则可以从工作外部查询。或者,您可能已经想使用现有的表,并希望将其添加到配置hive-site.xml中。
此配置文件包含一些您可能想要的属性,例如hive.metastore.uris,它将使您的上下文添加一个新表,该表将保存在商店中。借助包含表和位置的元存储,它可以从您的配置单元实例中的表中读取。