火花懒加载不起作用

时间:2016-07-20 12:56:16

标签: apache-spark lazy-loading

我正在学习Spark。以下是我在HUE中创建的文件内容。

This is a first line
Spark, Spark, Spark, Spark, Spark 
HadoopExam, HadoopExam, HadoopExam
Google.com, HadoopExam

我使用lambda方法创建一个RDD行。

val Lines = line.filter(a => a.contains("HadoopExam"))

然后我使用 count()和first()函数分别得到 2和HadoopExam,HadoopExam,HadoopExam 的结果。

现在我修改了文件如下。

    Google.comHadoopExam
    This is a first line
    Spark, Spark, Spark, Spark, Spark 
    HadoopExam, HadoopExam, HadoopExam
    Google.com, HadoopExam
    HadoopExam

我没有重新加载RDD线。 但是,当我调用函数计数时,显示的计数为3。 第一行被考虑,但不考虑最后一行。 有人可以解释这种行为吗?

0 个答案:

没有答案