具有自定义逻辑

时间:2018-03-30 18:56:14

标签: java apache-spark

我想将火花文本文件读入JavaRDD,下面的代码完全正常

JavaRDD rdd = sparkSession.sparkContext().textFile(filePath, 100).toJavaRDD();

我想在textFile

的这个函数中应用一些条件读数

例如:

如果文本文件的内容如下(注意这是简化示例)

1
2
2
3
4
4

我希望能够向前看或回顾并根据某些逻辑消除重复。

我不想在处理rdd时这样做。我想在阅读文本文件时能够做到这一点。

1 个答案:

答案 0 :(得分:0)

Spark正在通过优化器。 spark会在读取每行时实际执行转换和过滤,不需要将所有数据都放在内存中。

我的建议是使用过滤操作。此外,您可以persist生成RDD以避免重新计算。