如何使用Apache Spark将JSON文件转换为镶木地板?

时间:2016-01-12 10:04:59

标签: json apache-spark apache-spark-sql parquet

我是Apache Spark 1.3.1的新手。如何将JSON文件转换为Parquet?

1 个答案:

答案 0 :(得分:12)

Spark 1.4及更高版本

您可以使用sparkSQL首先将JSON文件读入DataFrame,然后将DataFrame写为镶木地板文件。

val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")

df.save("path/to/parquet/file", "parquet")

查看herehere以获取示例和详细信息。

Spark 1.3.1

val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")

与Windows和Spark 1.3.1相关的问题

在Windows上将DataFrame保存为镶木地板文件会抛出java.lang.NullPointerException,如here所述。

在这种情况下,请考虑升级到更新的Spark版本。