Spark Java API。访问RDD的最后一个元素

时间:2019-02-20 13:28:57

标签: java apache-spark apache-spark-sql

我正在使用Spark Java API开发Spark SQL(2.2)。

RDD.first()RDD.take(1)给出了第一项,是否有直接的方法以类似的方式访问最后一个元素?

我不建议对RDD使用尾部/尾部方法。

我需要使用RDD,因为我需要检查文件的最后一行是否包含“ \ r”或“ \ n”。如果我使用Dataset Spark的DataFrame,请删除“ \ r”和“ \ n”。

这是我如何使用Spark Java API加载数据。

JavaSparkContext jsc = JavaSparkContext.fromSparkContext(session.sparkContext());
    Configuration hadoopConf = new Configuration();
    hadoopConf.set("textinputformat.record.delimiter", separateur);
    JavaRDD<String> rdd = jsc
            .newAPIHadoopFile(fecpath, TextInputFormat.class, LongWritable.class, Text.class, hadoopConf).values()
            .map(r -> r.toString());

0 个答案:

没有答案