标签: apache-spark apache-spark-sql apache-spark-dataset
我有兴趣执行spark.read(“ path / *。tsv”)以从给定路径读取所有数据文本文件(例如:在这种情况下为tsv)。
在控制台上显示任意查询结果时,是否可以添加一列来指示该行在文件中出现的实际行号?例如,如果该行出现在文件abc.tsv的第10行上,我希望看到“ 10”作为该列中的值出现。
有一个提供行名称的文件名的API,但是我也对它出现在文件中的行号感兴趣。这可能吗?谢谢