Question

我有一个我从Spark中的hive / orc读入的数据集，但是我收到了从csv读入时没有得到的各种错误。如何在没有命中磁盘的情况下告诉spark将该数据集转换为不是orc的东西？现在我用这个：

FileSystem.get(sc.hadoopConfiguration).delete(new Path(name));
loadedTbl.write.json(name);
val q = hc.read.json(name);

Answer 1

您可以重写为任何格式并使用它。

df.write.json('json_file_name')
df.write.parquet('parquet_file_name')