最近我正在尝试在我在google colab中的自定义数据集上训练tensorflow模型api的ssd mobilenet对象检测模型,在步骤1之后,训练课程停止了而没有显示或抛出任何异常或消息。我无法弄清楚问题谁能解释一下吗?
答案 0 :(得分:1)
我认为可能是由于内存有限导致的问题。您可以尝试:-
在配置文件时:-
例如:-
train_config: {
batch_size: 1
...
batch_queue_capacity: 50
num_batch_queue_threads: 8
prefetch_queue_capacity: 10
}
答案 1 :(得分:0)
培训将在1步后停止,这意味着您只有1个批次要处理。
num_batches = num_epochs * (num_samples / batch_size)
即使将steps
设置为一个很大的值,如果上面的num_batches
仅是1,也会在第1步后停止。