我正在尝试从pig切换到Spark。对于我们的用例,我们从关系数据库生成json文档以使用弹性搜索进行存储和搜索。这需要大量的加入和分组。我想知道在Spark中是否有Pig Group By和JSONStorage等效。有GroupByKey,但不建议我阅读。 实施例..
A = load 'student' AS (name:chararray,age:int,gpa:float);
DESCRIBE A; A: {name: chararray,age: int,gpa: float}
DUMP A; (John,18,4.0F) (Mary,19,3.8F) (Bill,20,3.9F) (Joe,18,3.8F)
B = GROUP A BY age;
Result: (18,{(John,18,4.0F),(Joe,18,3.8F)}) (19,{(Mary,19,3.8F)})
(20,{(Bill,20,3.9F)})
有没有人有任何建议? 提前谢谢。