依靠DF给出不同的结果

时间:2016-12-16 04:28:46

标签: apache-spark apache-spark-sql spark-dataframe rdd

我正在从XML文件创建df并与另一个文件进行一些连接。每当我从连接查询中计算得到的DF时,它给出了不同的计数。我不缓存数据。它看起来像火花的怪异行为。 知道为什么会这样吗?这就是我要做的事情......

val file1 = sqlContext.sql("select * from infile2");
file1.registerTempTable("file1");
val file2 = sqlContext.sql("select * from infile2");
file2.registerTempTable("file2");
val joinedfile = sqlContext.sql("select * from file1 join file2 on file1.id = file2.id");

现在,

joinedfile.count() 
每当我运行它时,

会给出不同的计数。

0 个答案:

没有答案