我没有任何具体的查询,但设计问题。如果我问一个愚蠢的问题,我是新来的火花/流媒体,因此请原谅我。如果问题不适合此论坛,请删除它。
基本上我们有条件要求我们必须每小时处理大量数据并生成用于报告kibana(弹性搜索)的o / p。让我们假设我们有两个数据模型,如下所示。 DataModel-1表示使用该哈希发送推文的人的哈希标记和用户ID。第二个数据模型DataModel-2包含zip和用户如何在该zip中。 DataModel-1数据是流数据,我们每秒获得近40K事件。 DataModel-2不经常改变它。在输出中,我们需要数据,通过这些数据,我们可以看到给定zip的标记趋势。就像在给定时间中拉链一样,有多少用户在给定标签上发推文。
我有以下问题
DataModel-1 [{ 哈希:#IAMHAPPY, 用户:[123,134,4566,78899]}]
DataModel-2 [{ zip:zip1 用户:[123,134]},{ zip:zip2 用户:[4566,78899]}]
报告数据模型[ { zip:zip1, 哈希:[#IAMHAPPY] }, { zip:zip2, 哈希:[#IAMHAPPY] }]
答案 0 :(得分:1)