我是新来的火花,我试图将我的文本文件保存到orc使用spark-shell是他们的任何方式吗?
vall data =sc.textFile("/yyy/yyy/yyy")
data.saveAsOrcFile("/yyy/yyy/yyy")
答案 0 :(得分:2)
您可以将RDD转换为DataFrame,然后保存。
data.toDF().write.format("orc").save("/path/to/save/file")
要读回来,请使用sqlContext
import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val data = sqlContext.read.format("orc").load("/path/to/file/*")