Question

我是新来的火花，我试图将我的文本文件保存到orc使用spark-shell是他们的任何方式吗？

vall data =sc.textFile("/yyy/yyy/yyy")
data.saveAsOrcFile("/yyy/yyy/yyy")

Answer 1

您可以将RDD转换为DataFrame，然后保存。

data.toDF().write.format("orc").save("/path/to/save/file")

要读回来，请使用sqlContext

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

val data = sqlContext.read.format("orc").load("/path/to/file/*")

如何将文本文件保存到spark中的orc

1 个答案: