Spark Streaming UpdateStateByKey

时间:2014-10-24 05:13:52

标签: spark-streaming

我正在运行24X7火花流,并使用updateStateByKey函数来保存计算的历史数据,就像在NetworkWordCount示例中一样。

我尝试使用3lac记录流式传输文件,每1500条记录休眠1秒。 我正在使用3名工人

  1. 在一段时间内updateStateByKey正在增长,然后程序抛出以下异常
  2. 错误执行程序:任务ID 1635中的异常 java.lang.ArrayIndexOutOfBoundsException:3

    14/10/23 21:20:43 ERROR TaskSetManager: Task 29170.0:2 failed 1 times; aborting job
    14/10/23 21:20:43 ERROR DiskBlockManager: Exception while deleting local spark dir: /var/folders/3j/9hjkw0890sx_qg9yvzlvg64cf5626b/T/spark-local-20141023204346-b232
    java.io.IOException: Failed to delete: /var/folders/3j/9hjkw0890sx_qg9yvzlvg64cf5626b/T/spark-local-20141023204346-b232/24
    
    14/10/23 21:20:43 ERROR Executor: Exception in task ID 8037
    java.io.FileNotFoundException: /var/folders/3j/9hjkw0890sx_qg9yvzlvg64cf5626b/T/spark-local-20141023204346-b232/22/shuffle_81_0_1 (No such file or directory)
        at java.io.FileOutputStream.open(Native Method)
    

    如何处理? 我想updateStateByKey应该随着它的快速增长而定期重置,请分享关于何时以及如何重置updateStateByKey的一些例子..还是我有任何其他问题?有所启发。

    非常感谢任何帮助。谢谢你的时间

1 个答案:

答案 0 :(得分:0)

您是否设置了CheckPoint ssc.checkpoint(“检查点的路径”)