我在Cassandra有一张桌子如下:
name | region | year | business | subscriber | transaction
------------+--------+------+----------+------------+-------------
Madagascar | OMG | 2008 | 1000 | 10000 | 1000
Madagascar | OMG | 2009 | 1200 | 12000 | 1200
我想通过Spark提取数据。
如何在格式化输出时应用GROUP BY查询,类似于下面的示例?
{"name":"country1",
"region":"asia",
"transaction":[[2008,1000.23],[2009,1200.34]],
"subscriber":[[2008,10000],[2009,12000]],
"business":[[2008,1000],[2009,1200]]}
我在java中编码,下面是获取Cassandra行的代码
JavaRDD<CassandraRow> cassandraRDD = javaFunctions(sc).cassandraTable("test", "data_by_country");
如何进一步汇总数据