我训练了“ Humanoid-v2”(https://github.com/openai/gym/wiki/Humanoid-V1)走路。培训期间,奖励会增加。但是,我还需要一个性能矩阵来告诉我座席已经走了多远?
有对该代理(https://github.com/openai/gym/wiki/Humanoid-V1)的376个观测值。 哪个值对应于代理程序XML文件的第27行中提到的位置x,y,z :https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27吗?
谢谢
答案 0 :(得分:1)
dist = tf.add(tf.squared_difference(x2,x1),tf.squared_difference(y2,y1),tf.squared_difference (z2,z1))