Question

我正在尝试在AI平台上训练Tensorflow估算器。该模型在局部完美的状态下训练，尽管速度非常慢，但是当我尝试在AI平台上运行分布式GPU训练时，我遇到了以下错误：

from abc import ABC, abstractmethod

class Expression(ABC):
    class Visitor(ABC):
        @abstractmethod
        def visit_assign(self, expr: Assign):
            pass

    @abstractmethod
    def accept(self, visitor: Visitor):
        pass

class Assign(Expression):
    def accept(self, visitor: Visitor):
        # ...

我已将我的代码与CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz模块打包在一起，这是Google Cloud AI Platform推荐的。任何帮助将不胜感激！

Answer 1

我实际上能够解决我的问题：看来，如果我不设置登台存储区，则存储检查点的模型目录将在工作副本可以下载培训师之前覆盖培训师包！我不确定当工作副本还没有全部下载训练器时，检查点如何能够开始存储，但是添加了与我的模型目录不同的登台存储桶来解决此问题。

如何修复AI Platform GPU分布式培训作业中找不到的培训师包

1 个答案: