应用错误收集

我正在使用Spark Java API开发Spark SQL（2.2）。

RDD.first()或RDD.take(1)给出了第一项，是否有直接的方法以类似的方式访问最后一个元素？

我不建议对RDD使用尾部/尾部方法。

我需要使用RDD，因为我需要检查文件的最后一行是否包含“ \ r”或“ \ n”。如果我使用Dataset Spark的DataFrame，请删除“ \ r”和“ \ n”。

这是我如何使用Spark Java API加载数据。

JavaSparkContext jsc = JavaSparkContext.fromSparkContext(session.sparkContext());
    Configuration hadoopConf = new Configuration();
    hadoopConf.set("textinputformat.record.delimiter", separateur);
    JavaRDD<String> rdd = jsc
            .newAPIHadoopFile(fecpath, TextInputFormat.class, LongWritable.class, Text.class, hadoopConf).values()
            .map(r -> r.toString());

Spark Java API。访问RDD的最后一个元素

0 个答案: