我正在使用HDP 2.6.4,更具体的Hive 1.2.1与TEZ 0.7.0,Spark 2.2.0。
我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为实现这一目标,我这样做:
我的问题是: 1. Hive在幕后扮演的角色是什么? 2.是否可以跳过Hive?
答案 0 :(得分:0)
您可以跳过Hive并使用SparkSQL在步骤1中运行命令
在您的情况下,Hive正在为您的数据定义一个架构,并为您提供一个查询层,供Spark和外部客户端进行通信
否则,spark.orc
可以直接在文件系统上读写数据帧