应用错误收集

我在Cassandra有一张桌子如下：

name       | region | year | business | subscriber | transaction
------------+--------+------+----------+------------+-------------
 Madagascar |    OMG | 2008 |     1000 |      10000 |        1000
 Madagascar |    OMG | 2009 |     1200 |      12000 |        1200

我想通过Spark提取数据。

如何在格式化输出时应用GROUP BY查询，类似于下面的示例？

{"name":"country1",
"region":"asia",
"transaction":[[2008,1000.23],[2009,1200.34]],
"subscriber":[[2008,10000],[2009,12000]],
"business":[[2008,1000],[2009,1200]]}

我在java中编码，下面是获取Cassandra行的代码

JavaRDD<CassandraRow> cassandraRDD = javaFunctions(sc).cassandraTable("test", "data_by_country");

如何进一步汇总数据

GroupBy用于Spark编程中的JavaPairRDD

0 个答案: