我正在尝试从使用csv文件中的数据创建的public class creator{
public static void main(String[]arg){
personal_id obj1=new personal_id("John");
personal_id obj2=new personal_id("Jane");
personal_id obj3=new personal_id("Jim");
personal_id obj4=new personal_id("Lucas");
}
}
中删除标头。有很多方法可以做到这一点。
所以,我想知道Dataset<Row>
中的第一行是否总是等于文件中的第一行(从中创建Dataset<Row>
)?
答案 0 :(得分:2)
当您读取文件时,RDD / Dataframe / Dataset中的记录与文件中的记录顺序相同。但是,如果您执行任何需要改变订单更改的操作。
因此,您可以在读取文件后以及需要改组的任何操作之前立即删除第一行。
最佳选择是将csv
数据源用作
spark.read.option("header", true).csv(path)
这会将第一行作为标题并将其用作列名。