在谷歌云ml中运行模型训练时出错

时间:2017-12-29 11:07:27

标签: machine-learning google-cloud-ml

我想在云中运行模型培训。我正在关注运行示例代码的this link来训练基于花卉数据集的模型。本教程包含4个阶段:

  1. 设置云端存储分区
  2. 在云中预处理培训和评估数据
  3. 在云中运行模型培训
  4. 部署并使用模型进行预测
  5. 我能够完成第1步和第2步,但是在第3步中,作业已成功提交,但不知何故发生错误并且任务以非退出状态1退出。这是任务的日志

    Error logs during model training

    扩展日志的屏幕截图是:

    Expanded error logs

    我使用了以下命令:

    function findLongest(array) {
        var biggestNum = array[0];
    
        for (var i = 1; i < array.length; i++) {
            if (Math.floor(Math.log10(array[i]) || 0) > Math.floor(Math.log10(biggestNum) || 0)) {
                biggestNum = array[i];
            }
        }
        return biggestNum;
    }
    
    console.log(findLongest([111, 1111, 5555, 10000, 1, 90000, 0]));

    提前致谢!

3 个答案:

答案 0 :(得分:0)

请您确认输入文件(eval_data_paths和train_data_paths)是否为空?此外,如果您仍然遇到问题,请提出问题https://github.com/GoogleCloudPlatform/cloudml-samples,因为它更容易处理Github上的问题。

答案 1 :(得分:0)

我遇到了同样的问题但无法弄清楚,然后我跟着this,再次从git clone再次执行此操作,并且在gcs上运行后没有错误。

答案 2 :(得分:0)

从您的错误消息中可以清楚地看到

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error

你有一些编程错误(语法,未定义等)。

有关详细信息,请查看return code and meaning

  

返回代码-------------含义-------------- Cloud ML Engine响应

     

0成功完成关闭并释放作业资源。

     

1-128不可恢复的错误结束作业并记录错误。

您需要先找到您的错误并修复它,然后再试一次。

我建议您在云中提交之前在本地运行您的任务(如果您的配置支持)。如果您发现任何错误,可以在本地计算机上轻松修复。