从csv文件创建的第一行数据集<row>是否等于文件中的第一行?

时间:2017-12-29 01:21:17

标签: apache-spark apache-spark-sql

我正在尝试从使用csv文件中的数据创建的public class creator{ public static void main(String[]arg){ personal_id obj1=new personal_id("John"); personal_id obj2=new personal_id("Jane"); personal_id obj3=new personal_id("Jim"); personal_id obj4=new personal_id("Lucas"); } } 中删除标头。有很多方法可以做到这一点。
所以,我想知道Dataset<Row>中的第一行是否总是等于文件中的第一行(从中创建Dataset<Row>)?

1 个答案:

答案 0 :(得分:2)

当您读取文件时,RDD / Dataframe / Dataset中的记录与文件中的记录顺序相同。但是,如果您执行任何需要改变订单更改的操作。

因此,您可以在读取文件后以及需要改组的任何操作之前立即删除第一行。

最佳选择是将csv数据源用作

spark.read.option("header", true).csv(path)

这会将第一行作为标题并将其用作列名。