据我所知,Spark SQL直接读取hdfs文件 - 这里不需要M / R.具体而言,没有使用基于Map / Reduce的Hadoop输入/输出格式(除了特殊情况,如HBase)
那么在运行的hive服务器上是否存在任何内置依赖项?或者只需要
c)运行Hive Metastore服务器
用于访问配置单元文件的hadoop相关I / O格式似乎包括:
Spark SQL / Catalyst能否读取以这些格式存储的Hive表 - 只运行Hive Metastore服务器?
答案 0 :(得分:1)
是
Hive支持(sql / hive) - 包含一个名为HiveContext的SQLContext扩展,允许用户使用HiveQL子集编写查询,并使用Hive SerDes从Hive Metastore访问数据。还有一些包装器允许用户运行包含Hive UDF,UDAF和UDTF的查询。
这是通过依赖Hive库来读取数据来实现的。但是处理发生在Spark内部。所以不需要MapReduce或YARN。