我的RDD约为100,000条,格式如下:(key, value)
。
对于函数def f(x, y): ... return z
,我需要以下笛卡尔积:(key1, key2, z)
其中key1 <> key2
和z = f(value1, value2)
,我将从中获得SELECT key1, key2, z, RANK() OVER(PARTITION BY value1 ORDER BY z DESC) AS rnk
的等价物.rank()
1}}。
我的问题是,使用HiveContext窗口函数获取Spark的排名是否更有效,或者将其输出到Hive表并运行等效的HiveQL查询更好?由于cordovaHTTP.setHeader("Header", "Value");
。