可以在没有运行任何Map / Reduce(/ Yarn)的情况下对Hive表执行Spark SQL吗?

时间:2015-02-27 22:43:52

标签: hive apache-spark yarn

据我所知,Spark SQL直接读取hdfs文件 - 这里不需要M / R.具体而言,没有使用基于Map / Reduce的Hadoop输入/输出格式(除了特殊情况,如HBase)

那么在运行的hive服务器上是否存在任何内置依赖项?或者只需要

  • a)Spark Standalone
  • b)HDFS和
  • c)运行Hive Metastore服务器

    • 即Yarn / MRV1需要 吗?

用于访问配置单元文件的hadoop相关I / O格式似乎包括:

  • TextInput /输出格式
  • ParquetFileInput / Output Format

Spark SQL / Catalyst能否读取以这些格式存储的Hive表 - 只运行Hive Metastore服务器?

1 个答案:

答案 0 :(得分:1)

Spark SQL Readme说:

  

Hive支持(sql / hive) - 包含一个名为HiveContext的SQLContext扩展,允许用户使用HiveQL子集编写查询,并使用Hive SerDes从Hive Metastore访问数据。还有一些包装器允许用户运行包含Hive UDF,UDAF和UDTF的查询。

这是通过依赖Hive库来读取数据来实现的。但是处理发生在Spark内部。所以不需要MapReduce或YARN。

相关问题