应用错误收集

我的RDD约为100,000条，格式如下：(key, value)。

对于函数def f(x, y): ... return z，我需要以下笛卡尔积：(key1, key2, z)其中key1 <> key2和z = f(value1, value2)，我将从中获得SELECT key1, key2, z, RANK() OVER(PARTITION BY value1 ORDER BY z DESC) AS rnk的等价物.rank() 1}}。

我的问题是，使用HiveContext窗口函数获取Spark的排名是否更有效，或者将其输出到Hive表并运行等效的HiveQL查询更好？由于cordovaHTTP.setHeader("Header", "Value");。

，Spark上的窗口函数需要重新分区

Hive vs. HiveContext

0 个答案: