apache-spark - 火花懒加载不起作用

我正在学习Spark。以下是我在HUE中创建的文件内容。

This is a first line
Spark, Spark, Spark, Spark, Spark 
HadoopExam, HadoopExam, HadoopExam
Google.com, HadoopExam

我使用lambda方法创建一个RDD行。

val Lines = line.filter(a => a.contains("HadoopExam"))

然后我使用 count（）和first（）函数分别得到 2和HadoopExam，HadoopExam，HadoopExam 的结果。

现在我修改了文件如下。

    Google.comHadoopExam
    This is a first line
    Spark, Spark, Spark, Spark, Spark 
    HadoopExam, HadoopExam, HadoopExam
    Google.com, HadoopExam
    HadoopExam

我没有重新加载RDD线。但是，当我调用函数计数时，显示的计数为3。第一行被考虑，但不考虑最后一行。有人可以解释这种行为吗？

火花懒加载不起作用

0 个答案: