我们正在做的非常像
我们发现的一个问题是,如果每小时工作没有成功,例如,连续,凌晨1点〜凌晨2点,凌晨2点〜凌晨3点,凌晨3点〜凌晨4点(或更多),那么下次,它会将数据从凌晨1点汇总到凌晨5点(最后一次成功时间记录在cassandra中)。问题出现在这个时刻,因为它现在是4个(或更多)小时的数据,并且它比一小时的数据更大,然后通过从cassandra到数据帧中选择太多数据而导致OutofMemory
异常。
好吧,为spark执行器添加内存是解决这个问题的一种方法。但是,考虑到这是一个边缘问题,我想知道是否有任何成熟的模式或架构来处理这个问题。