我是否有足够的数据来运行可靠的分析?

时间:2018-05-02 14:05:58

标签: python pandas data-visualization correlation data-science

我有一个NBA比赛数据集,其中包括2012-13 / 2016-17赛季的比赛,其中季后赛被分别标记为2013-2017季后赛,我已经建造了超过6000行,看起来像这样。 / p>

                  Date                 Visitor  V_PTS                  Home  \
25 2012-11-03 19:00:00        Sacramento Kings     98        Indiana Pacers   
26 2012-11-03 19:00:00    New Orleans Pelicans     89         Chicago Bulls   
27 2012-11-03 19:00:00          Boston Celtics     89    Washington Wizards   
28 2012-11-03 19:00:00  Portland Trail Blazers     95       Houston Rockets   
29 2012-11-03 19:30:00         Toronto Raptors    100         Brooklyn Nets   
30 2012-11-03 19:30:00       Charlotte Hornets     99      Dallas Mavericks   
31 2012-11-03 19:30:00   Golden State Warriors    114  Los Angeles Clippers   

    H_PTS  Attendance                     Arena                 Location  \
25    106       18165   Bankers Life Fieldhouse    Indianapolis, Indiana   
26     82       21758             United Center        Chicago, Illinois   
27     86       20308         Capital One Arena         Washington, D.C.   
28     85       18140             Toyota Center           Houston, Texas   
29    107       17732           Barclays Center       Brooklyn, New York   
30    126       19490  American Airlines Center            Dallas, Texas   
31    110       19060            Staples Center  Los Angeles, California   

    Capacity Yr Arena Opened   Season  H_Allstars  V_Allstars  V_wins  \
25     17923            1999  2012-13           1           0       0   
26     20917            1994  2012-13           2           0       1   
27     20356            1997  2012-13           0           2       0   
28     18055            2003  2012-13           1           1       1   
29     17732            2012  2012-13           1           0       0   
30     19200            2001  2012-13           0           0       1   
31     19060            1999  2012-13           2           1       1   

    V_losses  H_wins  H_losses  V_WPercent  H_WPercent  
25         2       1         1         0.0         0.5  
26         1       2         0         0.5         1.0  
27         2       0         1         0.0         0.0  
28         1       2         0         0.5         1.0  
29         1       0         0         0.0         0.0  
30         0       1         1         1.0         0.5  
31         1       2         0         0.5         1.0 

我没有尝试做任何激烈的事情,但我正试图找到影响/预测NBA参赛人数的准确性。他们推荐添加的其他预测变量是什么?您如何建议探索数据以获得洞察力以及任何ML包可能有用的类型。我的第一个个人项目,所以任何所有的建议/例子都非常感谢。

更新

经过一些快速探索和浏览一些一步一步的在线教程后,我遇到了关于容量百分比的相关矩阵。我可能错了,但这些数字看起来很低吗?每个团队是否过于具体,我可能需要关注那些不会一直销售的团队,或者是否有一些我应该考虑的变量,包括可能与过去的出勤历史有关的变量?

Correlation Matrix for Capacity Percentage

1 个答案:

答案 0 :(得分:1)

我会考虑添加一些功能:

  1. 家庭和游客超级明星。我知道你有所有明星,但超级明星有点不同。示例:Lebron vs. Demar Derozan。两者都是超级明星,但更多的人可能会看到勒布朗超过德马尔。然而,添加所有这些并确定谁是超级明星将会非常痛苦。

  2. 您可能想要考虑竞争。由于球队的历史,波士顿vs洛杉矶(湖人队)总是一个卖座人群。

  3. 季票持有人的数量可能会或可能不会影响统计。我有兴趣看看它是否有任何重量。

  4. 其中一些并不太重要。我会考虑摆脱游戏分数,因为这是游戏结束时发生的事情,并且出勤与门票销售有关(在游戏开始之前)。看起来你确实有大量的数据可供使用。显然它将成为一个受监督的模型。看起来回归将是您想要用于模型的东西。