应用错误收集

我们的火花程序正在读取镶木地板文件。这些文件按日期在结构目录中进行分区（例如month = 201703 / day = 20170313 /）。文件名本身包含一个数字，该数字反映了它们最初的kafka分区（例如data.232.parquet）。特定用户的数据总是在同一个分区中结束，因此如果一个spark执行器在所有日期中读取同一分区的所有镶木地板文件（以避免在路上拖曳），这将是有意义的。

我们怎样才能做到这一点？也许我们还必须将分区号放在目录层次结构中？但即便如此，我也不清楚如何告诉Spark使用这些信息。

火花拼花阅读

0 个答案: