我有一个问题,在火花流中我只关心最后1分钟所以我已经相应地编写了我的代码
现在有时由于各种资源,我的预定批次就像这样堆积了
INFO JobScheduler: Added jobs for time 1470046240000 ms
INFO JobScheduler: Added jobs for time 1470046241000 ms
INFO JobScheduler: Added jobs for time 1470046242000 ms
INFO JobScheduler: Added jobs for time 1470046243000 ms
我的问题是,如果时间超过1分钟,我该如何放弃计划工作 这样它们就可以在执行前丢弃
答案 0 :(得分:0)
为了跳过具有大输入数据的批次,然后设置阈值计数,如果您的输入RDD计数大于阈值,则不执行任何操作,否则执行所需的所有操作(如转换,操作)。
我使用这种方法来跳过空批次。