如何处理大量的实木复合地板文件

时间:2017-07-12 12:58:58

标签: hadoop apache-spark streaming parquet file-type

我在Hadoop上使用Apache Parquet,过了一段时间我有一个问题。当我在Spark on Hadoop上生成parquets时,它会变得相当混乱。当我说凌乱时,我的意思是Spark工作正在生成大量的镶木地板文件。当我尝试查询它们时,我正在处理大量时间查询,因为Spark正在将所有文件合并在一起。

你能告诉我正确的处理方式,或者我可能会错过它们吗?你已经处理好了,你是如何解决它的?

更新1: 将这些文件合并到一块实木复合地板中是否有一些“副作用”足够好?什么尺寸的镶木地板文件优先使用,一些上下边界?

2 个答案:

答案 0 :(得分:2)

查看this GitHub回购和this回答。简而言之,保持文件大小大于HDFS块大小(128MB,256MB)。

答案 1 :(得分:1)

减少输出文件数量的好方法是使用coalescerepartition