应用错误收集

我正在尝试从pig切换到Spark。对于我们的用例，我们从关系数据库生成json文档以使用弹性搜索进行存储和搜索。这需要大量的加入和分组。我想知道在Spark中是否有Pig Group By和JSONStorage等效。有GroupByKey，但不建议我阅读。实施例..

A = load 'student' AS (name:chararray,age:int,gpa:float);
DESCRIBE A; A: {name: chararray,age: int,gpa: float}

DUMP A; (John,18,4.0F) (Mary,19,3.8F) (Bill,20,3.9F) (Joe,18,3.8F)

B = GROUP A BY age;

Result:  (18,{(John,18,4.0F),(Joe,18,3.8F)}) (19,{(Mary,19,3.8F)})
(20,{(Bill,20,3.9F)})

有没有人有任何建议？提前谢谢。

Spark Group By大数据

0 个答案: