如何跟踪跨越多个节点的大文件的行数?

时间:2017-03-20 16:40:24

标签: apache-spark

我正在使用sc.textFile(文件)阅读大文件这里的文件是横​​跨多个节点的大文件。我需要用于调试和索引目的的行号。

这里我的文件在每个节点中划分,行以1开头,但它应该是前一节点+1的总行数。

请告诉我。

1 个答案:

答案 0 :(得分:0)

  

阻止引用您可以使用sc.textFile()。zipWithIndex(),它将为文件添加索引,以便您可以跟踪行号   阻止报价