Question

将存储的avro数据与ORC和Parquet格式进行比较，我使用＆＃34; com.twitter＆＃34;成功地将Avro数据存储到镶木地板中％＆＃34; parquet-avro＆＃34; ％＆＃34; 1.6.0＆＃34; ，但无法找到任何以ORC格式存储avro数据的信息或API。

ORC是否只与Hive紧密结合？

由于 subahsh

Answer 1

你还没有说过你使用Spark，但问题是标记了它，所以我认为你是。

ORC文件格式目前与Spark中的HiveContext密切相关（我认为只能在1.4及更高版本中使用），但是如果你创建一个hive上下文，你应该能够将数据帧写入ORC文件中。你可以用Parquet，例如：

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

如果您通过Spark数据帧API读取avro数据，那么您应该只需要这些数据，但有关Hortonworks blog

的详细信息。

在HDFS中以ORC格式存储avro数据而不使用HIVE

1 个答案: