Databricks作业失败,没有错误消息

时间:2020-03-15 16:22:36

标签: python pyspark scikit-learn jobs databricks

这是我第一次发布问题。我的情况很奇怪。因此,我基本上是通过带有作业和群集参数的databricks作业提交pyspark脚本的。以下是我正在使用的群集参数:

    'spark_version': '6.1.x-scala2.11',
    'node_type_id': 'Standard_DS12_v2',
    'autoscale': {'min_workers': 1, 'max_workers': 4},
    'cluster_log_conf': {
        'dbfs': {
            'destination': 'dbfs:/logs/{job_id}/logs'.format(job_id=job_id)
        }
    },
    'spark_env_vars': {
        'PYSPARK_PYTHON': '/databricks/python3/bin/python3',
    },...

pyspark脚本的目标基本上是训练scikit学习模型并预测一些测试数据。但是,在训练过程中,还调用了预测函数来计算一些用于调整模型的超参数,效果很好。但是,在预测测试数据时调用预测函数时,它在scikit-learns的predict_proba方法中失败,没有错误消息...

我尝试过碰运气,但是没有运气。我从databricks日志中获得的唯一反馈是“异常:Databricks作业未成功完成。返回的结果状态为FAILED”。

我目前唯一想到的可能是内存不足错误,但是当以前发生(使用不同的群集参数)时,日志实际上会返回内存不足错误。

我们将不胜感激。

0 个答案:

没有答案