我是新的火花流。我知道窗口大小需要是批处理间隔的倍数。但滑动间隔如何工作?如果我有3个窗口大小和2个滑动间隔,当我计算说出字数时,是否会有重叠?或者滑动间隔和批次间隔应该相同吗?
答案 0 :(得分:1)
Here是文档的链接。
让我们来看看这些概念:
您可以参考上面的图片,其中窗口大小是批处理间隔的3倍,滑动窗口是批处理间隔的2倍。
回答一个问题,为什么窗口和滑动间隔应该是批次间隔的倍数 - 这是因为否则您的窗口将在批次之间结束。
如果你有3个窗口大小和2个滑动间隔(见图) - 是的,你的字数会重叠。基本上,当你想在某个有限的时间内计算某些东西时,你会使用窗口 - 比如实际新闻或推文或其他什么,当你不需要所有历史数据进行分析时。