我正在学习Spark。以下是我在HUE中创建的文件内容。
This is a first line
Spark, Spark, Spark, Spark, Spark
HadoopExam, HadoopExam, HadoopExam
Google.com, HadoopExam
我使用lambda方法创建一个RDD行。
val Lines = line.filter(a => a.contains("HadoopExam"))
然后我使用 count()和first()函数分别得到 2和HadoopExam,HadoopExam,HadoopExam 的结果。
现在我修改了文件如下。
Google.comHadoopExam
This is a first line
Spark, Spark, Spark, Spark, Spark
HadoopExam, HadoopExam, HadoopExam
Google.com, HadoopExam
HadoopExam
我没有重新加载RDD线。 但是,当我调用函数计数时,显示的计数为3。 第一行被考虑,但不考虑最后一行。 有人可以解释这种行为吗?