DC / OS上的Spark恢复从检查点流式传输失败

时间:2016-05-23 10:41:33

标签: apache-spark spark-streaming mesos mesosphere dcos

我有一个在AWS上的DC / OS上运行的流媒体作业。当我第一次运行作业,并将checkpoint文件夹指定为AWS S3时,一切顺利。

在我停止它并再次启动之后,我希望流式传输从检查点恢复,但是我得到以下错误:

  

错误SparkContext:初始化SparkContext时出错。   java.lang.Exception:不允许spark.executor.extraJavaOptions设置Spark选项('-Dspark.mesos.executor.docker.image = mesosphere / spark:1.0.0-1.6.1-2')。使用./bin/spark-submit时,直接在SparkConf或属性文件中设置它们。

我已使用https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/RecoverableNetworkWordCount.scala

中的示例设置了可恢复的流式传输

并连接到S3以检查指向:Spark Streaming checkpoint to amazon s3

似乎问题是,当从检查点文件重新创建spark上下文时,它会尝试更改 spark.mesos.executor.docker.image 属性,但我根本不设置它。 / p>

我的火花配置很简单,看起来像这样:

    $('#uploadButton').on('click', function () {
    var data = new FormData();
    var files = $('[type="file"]').get(0).files;
    // Add the uploaded image content to the form data collection
    if (files.length > 0) {
        data.append("file", files[0]);
    }

    $.ajax({
        type: "POST",
        url: '@Url.Action("Upload", "Application")',
        type: 'POST',
        data: data,
        cache: false,
        contentType: false,
        processData: false,
        success: function (data) {
            //show content
            alert('Success!')
        }
    });

})

有没有人遇到过类似的问题。

EDITED

我尝试过以这些方式设置spark conf:

val conf = new SparkConf()
    .setAppName("wattio-pipeline")

但是出现了同样的错误。

已编辑2

我在本地开发机器(我们自己安装的SMACK堆栈)上测试了相同的AWS S3检查点配置,并且流式传输正确恢复。这意味着DCOS火花参数和属性存在错误。

我还提交了JIRA问题:https://dcosjira.atlassian.net/browse/DCOS-131

0 个答案:

没有答案