应用错误收集

Spark Structured Streaming 2.3.0中的Dataset / Dataframe API中的逆约减优化在哪里

时间：2018-07-31 05:20:07

标签： scala apache-spark apache-spark-sql spark-structured-streaming apache-spark-dataset

在使用DStream的Spark流中，我们有
reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])
您可以在其中提供反函数，该函数将删除窗口中最早的（微批次）聚合结果，从而使您可以在非常大的窗口上大幅减小状态的大小。

在Dataset / Dataframe API中，我们有groupBy(key, window(...)).agg(myAgg.toColumn)，如here和here

但是有什么方法可以通过在Dataset / Dataframe API中仅对旧块进行逆聚合而对新块进行逆聚合来优化状态计算时间？

0 个答案:

没有答案

如何在Spark结构化流中将JSON数据集转换为DataFrame
如何在Spark结构化流媒体中将流数据集转换为JavaRDD
Spark 2.3.0退出结构化流媒体流程的正确方法
Spark Structured Streaming - Customer Sink在Spark 2.2.0中工作但在Spark 2.3.0中获得异常
Apache如何激发结构化流2.3.0让接收器知道新行是现有行的更新？
Spark Structured Streaming 2.3.0中的Dataset / Dataframe API中的逆约减优化在哪里
在Spark 2.3.0中的结构化流中禁用_spark_metadata
flatMapWithGroup是否在Spark结构化流中支持？
输出数据集中的Spark结构化流为空
Spark结构化流2.3.0中的水印

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？