如何将Spark中的ORC数据帧转换为其他内容?

时间:2018-03-23 23:12:57

标签: apache-spark orc

我有一个我从Spark中的hive / orc读入的数据集,但是我收到了从csv读入时没有得到的各种错误。如何在没有命中磁盘的情况下告诉spark将该数据集转换为不是orc的东西?现在我用这个:

FileSystem.get(sc.hadoopConfiguration).delete(new Path(name));
loadedTbl.write.json(name);
val q = hc.read.json(name);

1 个答案:

答案 0 :(得分:1)

您可以重写为任何格式并使用它。

df.write.json('json_file_name')
df.write.parquet('parquet_file_name')