Spark Group By大数据

时间:2016-08-27 15:52:07

标签: scala apache-spark spark-dataframe

我正在尝试从pig切换到Spark。对于我们的用例,我们从关系数据库生成json文档以使用弹性搜索进行存储和搜索。这需要大量的加入和分组。我想知道在Spark中是否有Pig Group By和JSONStorage等效。有GroupByKey,但不建议我阅读。 实施例..

  1. A = load 'student' AS (name:chararray,age:int,gpa:float);
        DESCRIBE A; A: {name: chararray,age: int,gpa: float}

    DUMP A; (John,18,4.0F) (Mary,19,3.8F) (Bill,20,3.9F) (Joe,18,3.8F)
    
    B = GROUP A BY age;
    
    Result:  (18,{(John,18,4.0F),(Joe,18,3.8F)}) (19,{(Mary,19,3.8F)})
    (20,{(Bill,20,3.9F)})
    
  2. 有没有人有任何建议? 提前谢谢。

0 个答案:

没有答案