sc.textFile之后的zipWithIndex会给出正确的行号吗?

时间:2016-11-30 21:16:35

标签: scala apache-spark

说如果我这样做,如下所示。

val rdd = sc.textFile("someFile.txt")
val rddWithLines = rdd.zipWithIndex

zipWithIndex添加的索引是否与输入文件中的行号(当然第一行为0)相对应?或者在这种情况下订单是否破裂?

2 个答案:

答案 0 :(得分:8)

zipWithIndex是一个仅限地图的转换(它不会随机播放),所以订单是正确的。你可以在这里安全地使用它。

答案 1 :(得分:-2)

SparkContext.textFile可以为每个文件创建多个分区。如果这些分区的顺序正确,您应该得到正确的结果。有关详细信息,请参阅this answer