Spark / Scala Rdd和DataFrame的groupBy函数之间的任何工作差异

时间:2018-04-23 04:38:32

标签: apache-spark dataframe spark-dataframe rdd

我已经检查过并且有点好奇知道RDD和DataFrame的groupBy函数。是否有任何性能差异或其他? 请建议。

1 个答案:

答案 0 :(得分:-1)

考虑UserInterfacevar tough = require('tough-cookie'); var cookiejar = new tough.CookieJar(); cookiejar.setCookie("cookie-accepted=2", 'http://currentdomain.example.com/path', function(err) {console.log("err"+err);}); 之间的差异,RDD的分组变体与DataFrame的groupBy变体不同,不保留顺序。< / p>

cordova.cookieMaster.setCookieValue('https://www.url.fr', 'cookie-agreed', 
'2',
// function() {
//     console.log('A cookie has been set');
// },
// function(error) {
//     console.log('Error setting cookie: '+error);
// });

以上工作符合预期,即汇总结果将按DataFrame.groupBy排序。由于RDD和DataFrame的名称听起来相同,人们可能会认为它在RDD中也会按预期工作,但不是,但事实并非如此。原因是RDD的groupBy和DataFrame的groupBy的实现是非常不同的。 RDD&#39; RDD.groupBy可能会根据密钥对数据进行随机播放。