Question

我理解minimax算法如何适用于Tic Tac Toe python，但我不知道如何在Python中实际编码...这是我到目前为止所做的：

from copy import deepcopy

class TicTacToeBrain :

    def __init__(self, player = "x") :
        self._squares = {}
        self._copySquares = {}
        self._winningCombos = (
        [0, 1, 2], [3, 4, 5], [6, 7, 8],
        [0, 3, 6], [1, 4, 7], [2, 5, 8],
        [0, 4, 8], [2, 4, 6])

    def createBoard(self) :
        for i in range(9) :
            self._squares[i] = None
        print(self._squares)

    def showBoard(self) :
        print(self._squares[0], self._squares[1], self._squares[2])
        print(self._squares[3], self._squares[4], self._squares[5])
        print(self._squares[6], self._squares[7], self._squares[8])

    def getAvailableMoves(self) :
        self._availableMoves = []
        for i in range(9) :
            if self._squares[i] == None :
                self._availableMoves.append(i)
        return self._availableMoves

    def makeMove(self, position, player) :
        self._squares[position] = player
        self.showBoard()

    def complete(self) :
        if None not in self._squares.values() :
            return True
        if self.getWinner() != None :
            return True
        return False

    def getWinner(self) :
        for player in ("x", "o") :
            for combos in self._winningCombos :
                if self._squares[combos[0]] == player and self._squares[combos[1]] == player and self._squares[combos[2]] == player :
                    return player
        if None not in self._squares.values() :
            return "tie"
        return None

    def getEnemyPlayer(self, player) :
        if player == "x" :
            return "o"
        return "x"

    def minimax(self, node, player, depth = 0, first = True) :
        if first :
            best = 0
            self._copySquares = deepcopy(self._squares)

        if node.complete() :
            if node.getWinner() == "x" :
                self._squares = self._copySquares
                return -1 - depth
            elif node.getWinner() == "tie" :
                self._squares = self._copySquares
                return 0
            elif node.getWinner() == "o" :
                self._squares = self._copySquares
                return 1 + depth
            best = None
        for move in node.getAvailableMoves() :
            depth += 1
            node.makeMove(move, player)
            print()
            val = self.minimax(node, node.getEnemyPlayer(player), depth, first = False)
            print(val)
            if player == "o" :
                if val > best :
                    best = val
            else :
                if val < best :
                    best = val
            return best
            print()
            print()

    def printCopy(self) :
        print(self._copySquares)

然而，它从未打印出所有场景......有人请帮助！这是周一的一个项目..

Answer 1

一些问题：

执行在第一次迭代时以for循环突破return循环：这是不成熟的，因为您永远无法测试任何其他可用的移动。

。{/ 1>}

在return循环的每次迭代中递增深度值是错误的。相反，将for传递给递归调用，这样当你从那里返回时，你会继续相同的深度。

在递归调用之前完成的移动必须在它之后立即收回，否则depth+1循环的下一次迭代将不会从相同的位置开始。

for的值需要在 minimax方法的每次调用时初始化，而不仅仅是在递归树的顶部。此初始值不应为0，因为当前用户的最佳值可能低于0.因此，您需要将其初始化为极差值。

minimax方法不返回最佳移动，仅返回评估值。由于该方法的整个目的是告诉你应该播放哪个动作，你需要两个。因此，让方法返回一个包含两个值的元组：评估值和生成该值的移动。

一些非关键问题：

由于你想要延迟不可避免的损失，或加速强制获胜，当玩家获胜时计算价值的公式应该越接近于0，而不是越接近。因此，该公式需要进行更改。

由于您应该通过收回移动来恢复电路板，因此无需使用复制板和复制方块。如果所有编码都很好，在minimax方法的最高调用完成后，电路板应处于与调用之前完全相同的状态。

如果您不使用best表示空方格，而是使用单个字符（如“。”），则会打印得更好。所以，无论你在哪里引用空方格值，都要放上那个字符。

您在这里和那里有None以分隔输出。将方法放在print()方法中，其余代码可以不用它们。

鉴于以上几点，您不需要showBoard方法的node和first参数。

这是一个评论，更正的版本。我把原来的线留在原处，但在需要的地方将它们评论出来。

minimax

以下是有关如何使用该类的示例：

# *** not needed: # from copy import deepcopy class TicTacToeBrain : def __init__(self, player = "x") : self._squares = {} self._copySquares = {} self._winningCombos = ( [0, 1, 2], [3, 4, 5], [6, 7, 8], [0, 3, 6], [1, 4, 7], [2, 5, 8], [0, 4, 8], [2, 4, 6]) def createBoard(self) : for i in range(9) : # *** use a single character, ... easier to print self._squares[i] = "." print(self._squares) def showBoard(self) : # *** add empty line here, instead of in minimax print () print(self._squares[0], self._squares[1], self._squares[2]) print(self._squares[3], self._squares[4], self._squares[5]) print(self._squares[6], self._squares[7], self._squares[8]) def getAvailableMoves(self) : self._availableMoves = [] for i in range(9) : # *** see above if self._squares[i] == "." : self._availableMoves.append(i) return self._availableMoves def makeMove(self, position, player) : self._squares[position] = player self.showBoard() def complete(self) : # *** see above if "." not in self._squares.values() : return True if self.getWinner() != None : return True return False def getWinner(self) : for player in ("x", "o") : for combos in self._winningCombos : if self._squares[combos[0]] == player and self._squares[combos[1]] == player and self._squares[combos[2]] == player : return player # *** see above if "." not in self._squares.values() : return "tie" return None def getEnemyPlayer(self, player) : if player == "x" : return "o" return "x" # *** no need for `node` argument, nor `first` # *** use `self` instead of `node` in all this method def minimax(self, player, depth = 0) : # *** not needed # if first : # best = 0 # *** not needed # self._copySquares = deepcopy(self._squares) # *** always start with initilisation of `best`, but with worst possible value # for this player if player == "o": best = -10 else: best = 10 if self.complete() : if self.getWinner() == "x" : # *** don't do this, you may still need the position to try other moves # self._squares = self._copySquares # *** value should be closer to zero for greater depth! # *** expect tuple return value return -10 + depth, None elif self.getWinner() == "tie" : # self._squares = self._copySquares # *** expect tuple return value return 0, None elif self.getWinner() == "o" : # self._squares = self._copySquares # *** value should be closer to zero for greater depth! # *** expect tuple return value return 10 - depth, None # *** Execution can never get here # best = None for move in self.getAvailableMoves() : # *** don't increase depth in each iteration, instead pass depth+1 to # the recursive call # depth += 1 self.makeMove(move, player) # *** pass depth+1, no need for passing `node` nor `first`. # *** expect tuple return value val, _ = self.minimax(self.getEnemyPlayer(player), depth+1) print(val) # *** undo last move self.makeMove(move, ".") if player == "o" : if val > best : # *** Also keep track of the actual move best, bestMove = val, move else : if val < best : # *** Also keep track of the actual move best, bestMove = val, move # *** don't interrupt the loop here! # return best # *** this is dead code: # print() # print() # *** Also keep track of the actual move return best, bestMove def printCopy(self) : print(self._copySquares)

看到它在eval.in上运行......等待它。

有些事情你仍然可以改进

我不会为此提供代码，但您可以：

跟踪game = TicTacToeBrain() game.createBoard() game.makeMove(4, "o") game.makeMove(3, "x") val, bestMove = game.minimax("o") print('best move', bestMove) # --> 0 is a winning move.的转弯。这样你就不必将玩家作为参数传递给minimax，这样可以避免错误。它也使构造函数参数有用 - 目前你不用它做任何事情。

添加一个方法self.player，只需拨打bestMove，但只会返回最佳动作，而不是值。这将更容易管理。

使用alpha-beta修剪，这样你就可以停止评估其他动作，当它很明显你无法改善递归树中已经实现的值时。

Tic Tac Toe Python的Minimax算法

1 个答案:

有些事情你仍然可以改进