我想将火花文本文件读入JavaRDD
,下面的代码完全正常
JavaRDD rdd = sparkSession.sparkContext().textFile(filePath, 100).toJavaRDD();
我想在textFile
例如:
如果文本文件的内容如下(注意这是简化示例)
1
2
2
3
4
4
我希望能够向前看或回顾并根据某些逻辑消除重复。
我不想在处理rdd时这样做。我想在阅读文本文件时能够做到这一点。
答案 0 :(得分:0)
Spark正在通过优化器。 spark会在读取每行时实际执行转换和过滤,不需要将所有数据都放在内存中。
我的建议是使用过滤操作。此外,您可以persist生成RDD以避免重新计算。