我正在编写一个带有线性函数逼近器的q学习算法,代码如下:
for i in xrange(num_iter):
idx = np.random.choice(N, batch_size)
now_data = train_data[idx]
predicted_value = regressor.predict(now_data["next_state"])
now_data["true_value"] = predicted_value + now_data["reward"]
regressor.partial_fit(X=now_data["current_state"], y=now_data["true_value"])
现在我想在训练过程中绘制损失,但我没有找到任何方法从partial_fit
或fit
中提取丢失历史记录,尽管丢失可能会显示在屏幕上verbose
已设置。
我还调查了learning_curves
,但它似乎不适用于这种情况,因为标签在每次迭代中都会发生变化。
有没有办法做到这一点?