如何使用Spark Core API读取Parquet文件?

时间:2015-09-02 10:02:27

标签: java apache-spark parquet

如何使用Spark Core API阅读Parquet文件?

我知道使用Spark SQL有一些方法可以读取镶木地板文件。但是我们不能将Spark SQL用于我们的项目。

我们是否必须在newAPIHadoopFile上使用JavaSparkContext方法来执行此操作?

我正在使用Java来实现Spark Job。

1 个答案:

答案 0 :(得分:0)

使用以下代码:

SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);