如何与java代码并行读取镶木地板文件

时间:2017-09-09 12:18:34

标签: java parquet

是否可以并行读取镶木地板文件?

我正在使用类似于此处描述的内容(基于AvroParquetReader):how to read a parquet file, in a standalone java code? 但这不是按顺序完成的。

干杯!

2 个答案:

答案 0 :(得分:0)

我发现的唯一方法是拥有一个执行程序池,并且该池的每个工作程序都读取其中一个木地板文件。

答案 1 :(得分:0)

对镶木地板文件仍然很新鲜,我发现将镶木地板文件作为 Spark 数据集打开以列出并行化流更快:

// spark dataset to list parallel foreach
String PATH_SCHEMA = "s3a://" + bucket + "/" + key;
Path path = new Path(PATH_SCHEMA);

SparkSession spark = SparkSession.builder().master("local[1]").appName("example.com").getOrCreate();
Dataset<Row> ds = spark.read().parquet(path.toString());
ds.collectAsList().parallelStream().forEach(Class::method);