应用错误收集

我们正在做的非常像

将时间序列数据放入cassandra
每小时运行一次spark聚合作业，并将聚合数据放回cassandra

我们发现的一个问题是，如果每小时工作没有成功，例如，连续，凌晨1点〜凌晨2点，凌晨2点〜凌晨3点，凌晨3点〜凌晨4点（或更多），那么下次，它会将数据从凌晨1点汇总到凌晨5点（最后一次成功时间记录在cassandra中）。问题出现在这个时刻，因为它现在是4个（或更多）小时的数据，并且它比一小时的数据更大，然后通过从cassandra到数据帧中选择太多数据而导致OutofMemory异常。

好吧，为spark执行器添加内存是解决这个问题的一种方法。但是，考虑到这是一个边缘问题，我想知道是否有任何成熟的模式或架构来处理这个问题。

如何避免选择太多数据

0 个答案: