我有一个我从Spark中的hive / orc读入的数据集,但是我收到了从csv读入时没有得到的各种错误。如何在没有命中磁盘的情况下告诉spark将该数据集转换为不是orc的东西?现在我用这个:
FileSystem.get(sc.hadoopConfiguration).delete(new Path(name));
loadedTbl.write.json(name);
val q = hc.read.json(name);
答案 0 :(得分:1)
您可以重写为任何格式并使用它。
df.write.json('json_file_name')
df.write.parquet('parquet_file_name')