使用Storm的动态Pivot

时间:2014-01-31 09:16:08

标签: java cassandra pivot apache-storm trident

我在BigData DB中有行(我的情况是Cassandra),列名为col1,col2,col3,val1,val2

在SQL方法中,我可以按col1,col2或col2,col1或任何其他可能的方式进行分组。这样我就可以轻松地形成树层次结构。

但现在我们正在使用Cassandra存储不支持group by的数据。因此,我们希望使用Storm进行分组和聚合。 我们写了一些示例代码进行聚合和分组,但是我们无法形成是否可以实现它的意见。

数据看起来像这样

col1,col2,col3,val1,val2
------------------------
a1,b1,c1,10,20
a1,b1,c2,11,13
a1,b2,c1,9,15
a1,b2,c3,13,88
a2,b1,c1,30,44
a2,b3,c2,22,33
a4,b4,c4,99,66

与excel pivot一样,我想构建层次结构root-> child1-> child2-> child3-val1,val2然后如果我的层次结构是col1-> col2-> col3

a1          {43,136}
    --b1        {21,33}
        --c1    10,20
        --c2    11,13
    --b2        {22,103}
        --c1    9,15
        --c3    13,88
a2          {52,77}
    --b1        {30,44}
        --c1    30,44
    --b3        {22,33}
    --c2    22,33
a4          {99,66}
    --b4        {99,66}
        --c4    99,66

我想提供用户功能来重新安排层次结构元素,例如col3-> col1-> col2(或其他东西,也就是动态的) 在这种情况下,数据将如下所示

c1          {49,79}
    --a1        {19,35}
        --b1    10,20
        --b2    9,15
    --a2        {30,44}
        --b1    30,44
c2          {11,13}
    --a1        {11,13}
        --b1    11,13
    --a2        {22,33}
        --b3    22,33
c3          {13,88}
    --a1        {13,88}
        --b2    13,88
c4          {99,66}
    --a4        {99,66}
        --b4    99,66

我的三叉戟代码的几行看起来像这样,但没有按预期工作。

topology.newStream("aggregation", spout)
.groupBy(new Fields("col1","col2","col3","val1","val2"))
.aggregate(new Fields("val1","val2"), new Sum(), new Fields("val1sum","val2sum"))
.each(new Fields("col1","col2","col3","val1sum","val2sum"), new Utils.PrintFilter());

为了进行上述转换,我想在有或没有Trident API支持的情况下使用Storm。 谁能指导我如何实现它?任何计划的想法都非常感谢。

1 个答案:

答案 0 :(得分:0)

您应该只在groupBy中包含维度(您的col1,col2和col3)和NOT度量(您的val1,val2)。 当您需要聚合多个度量时,需要使用chainedAgg()构造。 以下是您的用例的更改拓扑代码:

            topology.newStream("aggregation", spout)
    .groupBy(new Fields("col1","col2"))
    .chainedAgg()
    .aggregate(new Fields("val1"), new Sum(), new Fields("val1sum"))
    .aggregate(new Fields("val2"), new Sum(), new Fields("val2sum"))
    .chainEnd()
    .each(new Fields("col1","col2","val1sum", "val2sum"), new Utils.PrintFilter());

它产生以下输出,正如您所期望的那样!

PartitionId = 0,[a1,b1,21,33]

PartitionId = 0,[a1,b2,22,103]

PartitionId = 0,[a4,b4,99,66]

PartitionId = 0,[a2,b1,30,44]

PartitionId = 0,[a2,b3,22,33]

干杯!

MK