应用错误收集

我有多个来源，每个来源都会收到相对少量的数据。在这些源中接收的数据的方案是相同的，因此它们仅用作发送事件的应用程序的分离。对数据执行的聚合是昂贵的（至少200个任务），这意味着我需要大量的处理能力。没关系，但是当我有很多数据来源的数据时，它实际上是非常低效的。因此，如果我针对每个源运行多个流式查询，这意味着我将有~200 * x任务，其中x是源的数量。只要每个源中都有大量数据，这就没问题了。我的问题是，是否有一种方法可以组合来自不同来源的所有数据（也可以将所有数据放在一个源中）并在整个块上执行聚合，但同时不要混合不同的应用程序数据。我想到的第一件事就是根据应用程序名称对数据进行分组，但后来我非常局限于我可以执行的操作。那么有没有办法做到这一点，或者我想要实现一些不可能的事情？

Spark sql结构化流媒体在多个源上具有相对少量的数据

0 个答案: