我正在使用以下代码创建ParquetWriter并将记录写入其中。
ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);
final GenericRecord record = new GenericData.Record(avroSchema);
parquetWriter.write(record);
但它只允许创建新文件(在指定的路径上)。 有没有办法将数据附加到现有的镶木地板文件(路径)?在我的情况下缓存parquetWriter是不可行的。
答案 0 :(得分:4)
有一个名为append:https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html的Spark API SaveMode,我相信它可以解决您的问题。
使用示例:
df.write.mode('append').parquet('parquet_data_file')
答案 1 :(得分:0)
Parquet是一个柱状文件,它优化了将所有列写在一起。如果需要任何编辑来重写文件。
来自维基
面向列的数据库将列的所有值序列化,然后将下一列的值序列化,依此类推。对于我们的示例表,数据将以这种方式存储:
10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;
一些链接