Question

我有一些由spark job生成的orc文件。有没有简单的方法可以直接从这些文件创建外部表？

Answer 1

我这样做的方法是先在Spark作业本身注册一个临时表，然后利用HiveContext的sql方法，使用临时表中的数据在hive中创建一个新表。例如，如果我有一个数据帧df和HiveContext hc，则一般过程是：

df.registerTempTable("my_temp_table")
hc.sql("CREATE TABLE new_table_name STORED AS ORC  AS SELECT * from my_temp_table")