使用cassandra进行Spark数据集分区时,会创建一大块拼花文件以及许多小拼花文件

时间:2018-07-27 03:03:45

标签: apache-spark cassandra

作为我的spark cassandra连接器测试的一部分,从cassandra数据写入甚至大小的实木复合地板文件时都遇到了问题。

问题是Spark数据集的镶木地板写操作正在创建一个单个大文件(实际数据)和许多小文件(仅包含标头)。不确定如何解决此问题。

使用命令

val df = spark.read.cassandraFormat("tab", "ks")
               .options(ReadConf.SplitSizeInMBParam.option(32))
               .load()
df.write.parquet("")
  

4 with_32_split / part-00318-ceb0dac6-6b32-4278-bcf6-8bee9fb46d72-c000.snappy.parquet

     

4 with_32_split / part-00319-ceb0dac6-6b32-4278-bcf6-8bee9fb46d72-c000.snappy.parquet

     

4 with_32_split / part-00320-ceb0dac6-6b32-4278-bcf6-8bee9fb46d72-c000.snappy.parquet

     

4 with_32_split / part-00321-ceb0dac6-6b32-4278-bcf6-8bee9fb46d72-c000.snappy.parquet

     

1717572->   with_32_split / part-00322-ceb0dac6-6b32-4278-bcf6-8bee9fb46d72-c000.snappy.parquet

0 个答案:

没有答案