我有一个NBA比赛数据集,其中包括2012-13 / 2016-17赛季的比赛,其中季后赛被分别标记为2013-2017季后赛,我已经建造了超过6000行,看起来像这样。 / p>
Date Visitor V_PTS Home \
25 2012-11-03 19:00:00 Sacramento Kings 98 Indiana Pacers
26 2012-11-03 19:00:00 New Orleans Pelicans 89 Chicago Bulls
27 2012-11-03 19:00:00 Boston Celtics 89 Washington Wizards
28 2012-11-03 19:00:00 Portland Trail Blazers 95 Houston Rockets
29 2012-11-03 19:30:00 Toronto Raptors 100 Brooklyn Nets
30 2012-11-03 19:30:00 Charlotte Hornets 99 Dallas Mavericks
31 2012-11-03 19:30:00 Golden State Warriors 114 Los Angeles Clippers
H_PTS Attendance Arena Location \
25 106 18165 Bankers Life Fieldhouse Indianapolis, Indiana
26 82 21758 United Center Chicago, Illinois
27 86 20308 Capital One Arena Washington, D.C.
28 85 18140 Toyota Center Houston, Texas
29 107 17732 Barclays Center Brooklyn, New York
30 126 19490 American Airlines Center Dallas, Texas
31 110 19060 Staples Center Los Angeles, California
Capacity Yr Arena Opened Season H_Allstars V_Allstars V_wins \
25 17923 1999 2012-13 1 0 0
26 20917 1994 2012-13 2 0 1
27 20356 1997 2012-13 0 2 0
28 18055 2003 2012-13 1 1 1
29 17732 2012 2012-13 1 0 0
30 19200 2001 2012-13 0 0 1
31 19060 1999 2012-13 2 1 1
V_losses H_wins H_losses V_WPercent H_WPercent
25 2 1 1 0.0 0.5
26 1 2 0 0.5 1.0
27 2 0 1 0.0 0.0
28 1 2 0 0.5 1.0
29 1 0 0 0.0 0.0
30 0 1 1 1.0 0.5
31 1 2 0 0.5 1.0
我没有尝试做任何激烈的事情,但我正试图找到影响/预测NBA参赛人数的准确性。他们推荐添加的其他预测变量是什么?您如何建议探索数据以获得洞察力以及任何ML包可能有用的类型。我的第一个个人项目,所以任何所有的建议/例子都非常感谢。
更新
经过一些快速探索和浏览一些一步一步的在线教程后,我遇到了关于容量百分比的相关矩阵。我可能错了,但这些数字看起来很低吗?每个团队是否过于具体,我可能需要关注那些不会一直销售的团队,或者是否有一些我应该考虑的变量,包括可能与过去的出勤历史有关的变量?
答案 0 :(得分:1)
我会考虑添加一些功能:
家庭和游客超级明星。我知道你有所有明星,但超级明星有点不同。示例:Lebron vs. Demar Derozan。两者都是超级明星,但更多的人可能会看到勒布朗超过德马尔。然而,添加所有这些并确定谁是超级明星将会非常痛苦。
您可能想要考虑竞争。由于球队的历史,波士顿vs洛杉矶(湖人队)总是一个卖座人群。
季票持有人的数量可能会或可能不会影响统计。我有兴趣看看它是否有任何重量。
其中一些并不太重要。我会考虑摆脱游戏分数,因为这是游戏结束时发生的事情,并且出勤与门票销售有关(在游戏开始之前)。看起来你确实有大量的数据可供使用。显然它将成为一个受监督的模型。看起来回归将是您想要用于模型的东西。