应用错误收集

我想知道神经网络是否有可能由它提供的一组输出而不是每个输出来训练。

例如，据我所知，如果您想构建一个玩井字游戏的神经网络，则必须对其进行训练，使其知道最佳动作是什么，但是如果没有人工输入最佳的董事会状态，神经网络将如何“学习”最佳的董事会行动？

这让我想知道是否有一种方法可以根据结果而不是每个输出来训练神经网络，比如说，神经网络得到了第一轮，我要求它知道输出的动向，然后是我的转向依此类推，我想知道是否有可能根据游戏结果来训练该神经网络，因为直到比赛结束我才能真正分辨出移动是“坏”还是“好”，并且要结束游戏，我需要至少3个输出。

是否可以使用神经网络解决这个问题？还是我正在寻找使用错误技术的答案？