我有一些由spark job生成的orc文件。 有没有简单的方法可以直接从这些文件创建外部表?
答案 0 :(得分:0)
我这样做的方法是先在Spark作业本身注册一个临时表,然后利用HiveContext的sql方法,使用临时表中的数据在hive中创建一个新表。例如,如果我有一个数据帧df和HiveContext hc,则一般过程是:
df.registerTempTable("my_temp_table")
hc.sql("CREATE TABLE new_table_name STORED AS ORC AS SELECT * from my_temp_table")