GroupBy用于Spark编程中的JavaPairRDD

时间:2016-04-18 11:10:53

标签: apache-spark cassandra spark-cassandra-connector

我在Cassandra有一张桌子如下:

name       | region | year | business | subscriber | transaction
------------+--------+------+----------+------------+-------------
 Madagascar |    OMG | 2008 |     1000 |      10000 |        1000
 Madagascar |    OMG | 2009 |     1200 |      12000 |        1200

我想通过Spark提取数据。

如何在格式化输出时应用GROUP BY查询,类似于下面的示例?

{"name":"country1",
"region":"asia",
"transaction":[[2008,1000.23],[2009,1200.34]],
"subscriber":[[2008,10000],[2009,12000]],
"business":[[2008,1000],[2009,1200]]}

我在java中编码,下面是获取Cassandra行的代码

JavaRDD<CassandraRow> cassandraRDD = javaFunctions(sc).cassandraTable("test", "data_by_country");

如何进一步汇总数据

0 个答案:

没有答案