我正在使用Spark Java API开发Spark SQL(2.2)。
RDD.first()
或RDD.take(1)
给出了第一项,是否有直接的方法以类似的方式访问最后一个元素?
我不建议对RDD使用尾部/尾部方法。
我需要使用RDD,因为我需要检查文件的最后一行是否包含“ \ r”或“ \ n”。如果我使用Dataset Spark的DataFrame,请删除“ \ r”和“ \ n”。
这是我如何使用Spark Java API加载数据。
JavaSparkContext jsc = JavaSparkContext.fromSparkContext(session.sparkContext());
Configuration hadoopConf = new Configuration();
hadoopConf.set("textinputformat.record.delimiter", separateur);
JavaRDD<String> rdd = jsc
.newAPIHadoopFile(fecpath, TextInputFormat.class, LongWritable.class, Text.class, hadoopConf).values()
.map(r -> r.toString());