应用错误收集

Spark结构化流式无状态模式

时间：2017-11-06 08:14:35

标签： apache-spark

是否可以在不保持状态的情况下使用Spark结构化流式聚合？例如，如果我在不考虑以前的批次的情况下，只计算每批次的单词。我知道有一些函数，比如flatMapGroups和mapGroups允许这样做，但它似乎不是本机方法，它有缺点。

在火花中执行此操作的规范方法是什么？我应该使用DStream吗？

1 个答案:

答案 0 :(得分：1)

在这种情况下，Spark结构化流媒体不适合您。请改用DStreams。但是，作为解决方法，您可以使用(flat)mapGroupsWithState并将timeOutConf设置为GroupStateTimeout.ProcessingTimeTimeout()。然后将状态的超时设置为“0秒”，以便最终逐出。

Spark结构化流媒体和过滤器
使用带水印的附加输出模式时的结构化流异常
Spark结构化流式增量输出模式
Spark结构化流式无状态模式
Structured Streaming Python API
如何在不使用flatMapsGroupWithState的情况下使用Structured Streaming 2.3.0在spark中进行无状态聚合？
CSV的结构化流
不了解结构化流中的更新模式和水印
在附加模式下，Spark结构化流显示结果为时已晚
Spark结构化流异常：没有水印时不支持追加输出模式

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？