Spark sql结构化流媒体在多个源上具有相对少量的数据

时间:2017-11-09 11:02:21

标签: apache-spark apache-spark-sql

我有多个来源,每个来源都会收到相对少量的数据。在这些源中接收的数据的方案是相同的,因此它们仅用作发送事件的应用程序的分离。对数据执行的聚合是昂贵的(至少200个任务),这意味着我需要大量的处理能力。没关系,但是当我有很多数据来源的数据时,它实际上是非常低效的。因此,如果我针对每个源运行多个流式查询,这意味着我将有~200 * x任务,其中x是源的数量。只要每个源中都有大量数据,这就没问题了。我的问题是,是否有一种方法可以组合来自不同来源的所有数据(也可以将所有数据放在一个源中)并在整个块上执行聚合,但同时不要混合不同的应用程序数据。我想到的第一件事就是根据应用程序名称对数据进行分组,但后来我非常局限于我可以执行的操作。那么有没有办法做到这一点,或者我想要实现一些不可能的事情?

0 个答案:

没有答案