如果我在pyspark中注册hive表然后针对表编写sql,sql每次都会点击底层的hive数据库,还是针对spark集群中加载的数据运行? 我在一个jupyter笔记本中运行它
hive_context = HiveContext(sc) #Initialize Hive
tbl_df = hive_context.table("hive_schema.hive_tbl_name")
tbl_df.registerTempTable("hive_tbl_name");
#Do the below queries run against Hive or against Spark
hive_context.sql("select count(*) from hive_tbl_name".).show();
hive_context.sql("select max(col1) from hive_tbl_name".).show();
答案 0 :(得分:0)
每次sql是否触及底层的hive数据库,还是针对spark集群中加载的数据运行?
都不是。
最后PySpark在这里根本不相关。执行引擎是相同的,独立于语言绑定。