我们的火花程序正在读取镶木地板文件。这些文件按日期在结构目录中进行分区(例如month = 201703 / day = 20170313 /)。文件名本身包含一个数字,该数字反映了它们最初的kafka分区(例如data.232.parquet)。特定用户的数据总是在同一个分区中结束,因此如果一个spark执行器在所有日期中读取同一分区的所有镶木地板文件(以避免在路上拖曳),这将是有意义的。
我们怎样才能做到这一点?也许我们还必须将分区号放在目录层次结构中?但即便如此,我也不清楚如何告诉Spark使用这些信息。