apache-spark - 火花流失失批次 - Thinbug

火花流失失批次

时间：2016-06-02 14:35:48

标签： apache-spark spark-streaming

由于与

等内存相关的问题，我在我的火花流应用程序中看到了一些失败的批次

无法计算拆分，阻止输入-0-1464774108087未找到

，我想知道是否有办法在不弄乱当前正在运行的应用程序的情况下重新处理这些批次，只是一般而言，不必是同样的例外。

提前致谢普拉迪普

1 个答案:

答案 0 :(得分：0)

如果您的数据摄取速率高于分配的内存或可以保留，则可能会发生这种情况。您可以尝试将StorageLevel更改为MEMORY_AND_DISK_SER，以便在内存不足时Spark可以将数据溢出到磁盘。这样可以防止您的错误。

另外，我不认为此错误意味着处理过程中丢失了任何数据，但是块处理器添加的输入块在处理开始之前刚刚超时。

检查Spark User list上的类似问题。

修改

数据不会丢失，只是没有出现任务所期望的位置。根据{{3}}：

您可以使用persist（）或cache（）标记要保留的RDD 方法就可以了。第一次在动作中计算它，它将是保留在节点上的内存中。 Spark的缓存是容错的 - 如果有的话 RDD的分区丢失，它将自动重新计算使用最初创建它的转换。

相关问题

火花流微型批处理

火花流失失批次

火花流比较两个批次和过滤数据

火花。将RDD分成批次

如何跟踪火花流中失败的批次

如何在火花流中顺次处理所有批次，以避免丢失数据批次。

火花流+在每个流批次中查询配置单元表？

控制微型批次的结构化火花流

缺少火花流批次

如何避免在火花流中排队批次

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？