将存储的avro数据与ORC和Parquet格式进行比较, 我使用" com.twitter"成功地将Avro数据存储到镶木地板中%" parquet-avro" %" 1.6.0" ,但无法找到任何以ORC格式存储avro数据的信息或API。
ORC是否只与Hive紧密结合?
由于 subahsh
答案 0 :(得分:2)
你还没有说过你使用Spark,但问题是标记了它,所以我认为你是。
ORC文件格式目前与Spark中的HiveContext密切相关(我认为只能在1.4及更高版本中使用),但是如果你创建一个hive上下文,你应该能够将数据帧写入ORC文件中。你可以用Parquet,例如:
import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")
如果您通过Spark数据帧API读取avro数据,那么您应该只需要这些数据,但有关Hortonworks blog
的详细信息。