应用错误收集

如何处理大量的实木复合地板文件

时间：2017-07-12 12:58:58

标签： hadoop apache-spark streaming parquet file-type

我在Hadoop上使用Apache Parquet，过了一段时间我有一个问题。当我在Spark on Hadoop上生成parquets时，它会变得相当混乱。当我说凌乱时，我的意思是Spark工作正在生成大量的镶木地板文件。当我尝试查询它们时，我正在处理大量时间查询，因为Spark正在将所有文件合并在一起。

你能告诉我正确的处理方式，或者我可能会错过它们吗？你已经处理好了，你是如何解决它的？

更新1：将这些文件合并到一块实木复合地板中是否有一些“副作用”足够好？什么尺寸的镶木地板文件优先使用，一些上下边界？

2 个答案:

答案 0 :(得分：2)

查看this GitHub回购和this回答。简而言之，保持文件大小大于HDFS块大小（128MB，256MB）。

答案 1 :(得分：1)

减少输出文件数量的好方法是使用coalesce或repartition。