说如果我这样做,如下所示。
val rdd = sc.textFile("someFile.txt")
val rddWithLines = rdd.zipWithIndex
zipWithIndex添加的索引是否与输入文件中的行号(当然第一行为0)相对应?或者在这种情况下订单是否破裂?
答案 0 :(得分:8)
zipWithIndex
是一个仅限地图的转换(它不会随机播放),所以订单是正确的。你可以在这里安全地使用它。
答案 1 :(得分:-2)
SparkContext.textFile可以为每个文件创建多个分区。如果这些分区的顺序正确,您应该得到正确的结果。有关详细信息,请参阅this answer。