作为一种练习,我正在尝试建立一个模型来预测网球比赛的结果(胜利或失败)。我正在使用Python,Pandas和scikit-learn。
我拥有的数据集具有两个球员ID和比赛结果以及其他数量。 在我的情况下,数据库的组织方式始终以Player1作为赢家,而Player2作为宽松者。因此,如果必须标记数据,它将始终是相同的标记(例如1)。
您认为什么更好:
非常感谢!
答案 0 :(得分:0)
对我来说,您需要将其洗牌。您具有在数据结构中编码的固有信息的数据集(玩家1获胜)。您无法在运行时重新创建此信息。
您想要的是一个数据集,其中玩家信息的顺序并不重要,并且标签0/1确定玩家1或玩家2会赢。