Hive vs. HiveContext

时间:2016-05-16 18:56:05

标签: hadoop apache-spark hive pyspark hiveql

我的RDD约为100,000条,格式如下:(key, value)

对于函数def f(x, y): ... return z,我需要以下笛卡尔积:(key1, key2, z)其中key1 <> key2z = f(value1, value2),我将从中获得SELECT key1, key2, z, RANK() OVER(PARTITION BY value1 ORDER BY z DESC) AS rnk的等价物.rank() 1}}。

我的问题是,使用HiveContext窗口函数获取Spark的排名是否更有效,或者将其输出到Hive表并运行等效的HiveQL查询更好?由于cordovaHTTP.setHeader("Header", "Value");

,Spark上的窗口函数需要重新分区

0 个答案:

没有答案