hive - 可以在没有运行任何Map / Reduce（/ Yarn）的情况下对Hive表执行Spark SQL吗？

时间：2015-02-27 22:43:52

标签： hive apache-spark yarn

据我所知，Spark SQL直接读取hdfs文件 - 这里不需要M / R.具体而言，没有使用基于Map / Reduce的Hadoop输入/输出格式（除了特殊情况，如HBase）

那么在运行的hive服务器上是否存在任何内置依赖项？或者只需要

用于访问配置单元文件的hadoop相关I / O格式似乎包括：

Spark SQL / Catalyst能否读取以这些格式存储的Hive表 - 只运行Hive Metastore服务器？

答案 0 :(得分：1)

是

Hive支持（sql / hive） - 包含一个名为HiveContext的SQLContext扩展，允许用户使用HiveQL子集编写查询，并使用Hive SerDes从Hive Metastore访问数据。还有一些包装器允许用户运行包含Hive UDF，UDAF和UDTF的查询。

这是通过依赖Hive库来读取数据来实现的。但是处理发生在Spark内部。所以不需要MapReduce或YARN。