是否可以在没有Hive的情况下将Spark与ORC文件格式一起使用?

时间:2018-06-08 13:32:10

标签: apache-spark hive hortonworks-data-platform orc hive-metastore

我正在使用HDP 2.6.4,更具体的Hive 1.2.1与TEZ 0.7.0,Spark 2.2.0。

我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为实现这一目标,我这样做:

  1. 通过HiveQL创建Hive表
  2. 使用Spark.SQL(“select ... from ...”)将数据加载到dataframe
  3. 针对数据框的处理
  4. 我的问题是: 1. Hive在幕后扮演的角色是什么? 2.是否可以跳过Hive?

1 个答案:

答案 0 :(得分:0)

您可以跳过Hive并使用SparkSQL在步骤1中运行命令

在您的情况下,Hive正在为您的数据定义一个架构,并为您提供一个查询层,供Spark和外部客户端进行通信

否则,spark.orc可以直接在文件系统上读写数据帧