例如,我想要传递给Spark SQL的Hive HQL语句很少:
set parquet.compression=SNAPPY;
create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE;
select * from MY_TABLE limit 5;
以下不起作用:
hiveContext.sql("set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;")
如何将语句传递给Spark SQL?
答案 0 :(得分:2)
感谢@SamsonScharfrichter的回答。
这将有效:
hiveContext.sql("set spark.sql.parquet.compression.codec=SNAPPY")
hiveContext.sql("create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE")
val rs = hiveContext.sql("select * from MY_TABLE limit 5")
请注意,在这种特殊情况下,我们需要使用 spark.sql.parquet.compression.codec
来代替 parquet.compression 键。答案 1 :(得分:2)
我在一个场景中工作,我需要读取一个sql文件并运行所有;该文件中存在分开的查询。
一种简单的方法就是这样:
val hsc = new org.apache.spark.sql.hive.HiveContext(sc)
val sql_file = "/hdfs/path/to/file.sql"
val file = sc.wholeTextFiles(s"$sql_file")
val queries = f.take(1)(0)._2
Predef.refArrayOps(queries.split(';')).map(query => hsc.sql(query))