我正在将Avro格式的Spark数据帧写入HDFS。而且我想拆分大型Avro文件,以便它们适合Hadoop块大小,同时又不会太小。是否有任何数据框或Hadoop选项?如何将要写入的文件拆分为较小的文件?
这是我将数据写入HDFS的方式:
dataDF.write
.format("avro")
.option("avroSchema",parseAvroSchemaFromFile("/avro-data-schema.json"))
.toString)
.save(dataDir)
答案 0 :(得分:0)
我进行了很多研究,发现无法仅对Avro记录的数量设置文件大小的限制。因此,唯一的解决方案是创建一个用于将记录数量映射到文件大小的应用程序。