可以使用以下内容来编写镶木地板数据。但是,如果我尝试写入的不仅仅是一个文件,而且想要输出到多个s3文件,以便读取单个列不能读取所有s3数据,那怎么办?
AvroParquetWriter<GenericRecord> writer =
new AvroParquetWriter<GenericRecord>(file, schema);
GenericData.Record record = new GenericRecordBuilder(schema)
.set("name", "myname")
.set("favorite_number", i)
.set("favorite_color", "mystring").build();
writer.write(record);
例如,如果我想按列值进行分区,以便所有具有红色的favorite_color的数据都放在一个文件中,而那些带有蓝色的数据放在另一个文件中,以最大限度地降低某些查询的成本。在Hadoop上下文中应该有类似的东西。我能找到的所有内容都是{/ 3}}使用类似
的内容df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])
但我在Hadoop的普通Java中找不到与partitionBy等效的东西。