应用错误收集

是否可以在没有Hive的情况下将Spark与ORC文件格式一起使用？

时间：2018-06-08 13:32:10

标签： apache-spark hive hortonworks-data-platform orc hive-metastore

我正在使用HDP 2.6.4，更具体的Hive 1.2.1与TEZ 0.7.0，Spark 2.2.0。

我的任务很简单。以ORC文件格式存储数据，然后使用Spark处理数据。为实现这一目标，我这样做：

通过HiveQL创建Hive表
使用Spark.SQL（“select ... from ...”）将数据加载到dataframe
针对数据框的处理

我的问题是： 1. Hive在幕后扮演的角色是什么？ 2.是否可以跳过Hive？

1 个答案:

答案 0 :(得分：0)

您可以跳过Hive并使用SparkSQL在步骤1中运行命令

在您的情况下，Hive正在为您的数据定义一个架构，并为您提供一个查询层，供Spark和外部客户端进行通信

否则，spark.orc可以直接在文件系统上读写数据帧