如何使用Spark Core API阅读Parquet文件?
我知道使用Spark SQL有一些方法可以读取镶木地板文件。但是我们不能将Spark SQL用于我们的项目。
我们是否必须在newAPIHadoopFile
上使用JavaSparkContext
方法来执行此操作?
我正在使用Java来实现Spark Job。
答案 0 :(得分:0)
使用以下代码:
SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);