Question

我正在使用运动员和足球运动员的GPS数据集。

我有6个输入/预测变量，其中3个变量依赖于＆＃34; time_played＆＃34;输入变量。如果更改time_played，这3个变量将会改变。

reproducible code:

df = {'player id' : ['1','2' ,'3','4'],     #categorical
  'position' : ['1','2' ,'3','4'],          #categorical
  'time_played': ['50','90' ,'88','70'],
  'distance': ['5117','11520' ,'10865','8652'],
  'acc_events' : ['2','4' ,'8','8'],
  'dec_events' : ['8','11' ,'14','9'],
  'energy' : ['29157','49520' ,'47865','39552'] }

Objective: 

Predicting the energy for each player for 90 mins.

我需要将所有这些与时间相关的变量（distance，acc_event和dec_event）缩放到90分钟。一旦我将这些变量缩放到90分钟，我就能够为这些新缩放的变量预测90分钟的输出变量（能量）。

由于我在这里有2个分类变量，＆＃39;玩家ID＆＃39;和＆＃39;位置＆＃39;，我不认为使用min-max规范化方法会给我一个有效的结果。

x_normalised = [ { x - min(x) } / { max(x) - min(x) } ] * 90

有没有办法可以将这些time_dependant输入变量缩放到90分钟然后我可以使用缩放值来预测输出/能量？

任何建议/帮助都会非常有帮助。 TIA。

相对于python中的另一个输入变量缩放输入要素

0 个答案: