是否可以并行读取镶木地板文件?
我正在使用类似于此处描述的内容(基于AvroParquetReader):how to read a parquet file, in a standalone java code? 但这不是按顺序完成的。
干杯!
答案 0 :(得分:0)
我发现的唯一方法是拥有一个执行程序池,并且该池的每个工作程序都读取其中一个木地板文件。
答案 1 :(得分:0)
对镶木地板文件仍然很新鲜,我发现将镶木地板文件作为 Spark 数据集打开以列出并行化流更快:
// spark dataset to list parallel foreach
String PATH_SCHEMA = "s3a://" + bucket + "/" + key;
Path path = new Path(PATH_SCHEMA);
SparkSession spark = SparkSession.builder().master("local[1]").appName("example.com").getOrCreate();
Dataset<Row> ds = spark.read().parquet(path.toString());
ds.collectAsList().parallelStream().forEach(Class::method);