Question

我在某个地方遇到了以下代码。

sqlContext.read.format("com.databricks.spark.csv")

Databricks 支持com.databricks.spark.csv文件格式。我想知道 Apache-Spark （2.0.0之前）本机支持的所有文件/数据格式

Answer 1

Spark支持Hadoop eco系统支持的所有格式。以下格式适用于spark。

1.textfile

2.sequencefile

3.json

4.avro（轻量级和快速序列化/反序列化）

5.parquet（柱定向并提供更好的压缩比）