Question

我想将火花文本文件读入JavaRDD，下面的代码完全正常

JavaRDD rdd = sparkSession.sparkContext().textFile(filePath, 100).toJavaRDD();

我想在textFile

的这个函数中应用一些条件读数

例如：

如果文本文件的内容如下（注意这是简化示例）

我希望能够向前看或回顾并根据某些逻辑消除重复。

我不想在处理rdd时这样做。我想在阅读文本文件时能够做到这一点。

Answer 1

Spark正在通过优化器。 spark会在读取每行时实际执行转换和过滤，不需要将所有数据都放在内存中。

我的建议是使用过滤操作。此外，您可以persist生成RDD以避免重新计算。