我最近使用mnist数据集建立了一个用于预测手写整数的模型。我现在想使用自己的图像。我的图像是28x28像素(如mnist集),但是当我尝试使用tf.image.decode_png将它们转换为张量时,我得到了3D张量[28,28,4]。通过阅读,我相信额外的4个与RGB有关。我该如何转换为[28,28]而忽略任何色阶(如果这是实际的问题,也许我完全错过了某些东西)。
谢谢!
答案 0 :(得分:1)
正如您正确地说的那样,您获得了3D张量,因为您的图像具有3个RGB通道。您可以使用类似tf.image.rgb_to_grayscale之类的东西来获取想要的东西。