环境:
在训练期间,观察不断增加的内存使用量(来自" top"命令)
使用" ssd_mobilenet_v2"管道并减少批量大小,队列大小和输入阅读器。
不确定为什么内存使用会不断累积,然后它变成OOM。系统是否存储除了权重之外的某些内容或某处存在内存泄漏?内存使用量假设在几个步骤后保持不变?
model {
ssd {
num_classes: 2
image_resizer {
fixed_shape_resizer {
height: 300
width: 300
}
}
}
}
train_config {
batch_size: 10
num_steps: 200000
fine_tune_checkpoint_type: "detection"
batch_queue_capacity: 10
num_batch_queue_threads: 10
prefetch_queue_capacity: 10
}
train_input_reader {
queue_capacity: 10
min_after_dequeue: 10
}
eval_config {
num_examples: 1
max_evals: 10
use_moving_averages: false
}
eval_input_reader {
queue_capacity: 10
min_after_dequeue: 10
}
答案 0 :(得分:1)
我在类似的系统上遇到了类似的问题。我通过尝试不同的tf和CUDA版本来解决它。你的OOM崩溃错误是什么样的?
批量大小适用于1080和64 GB RAM。
我可以推荐的另一件事是尝试v1检查点。