这是我第一次发布问题。我的情况很奇怪。因此,我基本上是通过带有作业和群集参数的databricks作业提交pyspark脚本的。以下是我正在使用的群集参数:
'spark_version': '6.1.x-scala2.11',
'node_type_id': 'Standard_DS12_v2',
'autoscale': {'min_workers': 1, 'max_workers': 4},
'cluster_log_conf': {
'dbfs': {
'destination': 'dbfs:/logs/{job_id}/logs'.format(job_id=job_id)
}
},
'spark_env_vars': {
'PYSPARK_PYTHON': '/databricks/python3/bin/python3',
},...
pyspark脚本的目标基本上是训练scikit学习模型并预测一些测试数据。但是,在训练过程中,还调用了预测函数来计算一些用于调整模型的超参数,效果很好。但是,在预测测试数据时调用预测函数时,它在scikit-learns的predict_proba方法中失败,没有错误消息...
我尝试过碰运气,但是没有运气。我从databricks日志中获得的唯一反馈是“异常:Databricks作业未成功完成。返回的结果状态为FAILED”。
我目前唯一想到的可能是内存不足错误,但是当以前发生(使用不同的群集参数)时,日志实际上会返回内存不足错误。
我们将不胜感激。