我正在使用运动员和足球运动员的GPS数据集。
我有6个输入/预测变量,其中3个变量依赖于" time_played"输入变量。如果更改time_played,这3个变量将会改变。
reproducible code:
df = {'player id' : ['1','2' ,'3','4'], #categorical
'position' : ['1','2' ,'3','4'], #categorical
'time_played': ['50','90' ,'88','70'],
'distance': ['5117','11520' ,'10865','8652'],
'acc_events' : ['2','4' ,'8','8'],
'dec_events' : ['8','11' ,'14','9'],
'energy' : ['29157','49520' ,'47865','39552'] }
Objective:
Predicting the energy for each player for 90 mins.
我需要将所有这些与时间相关的变量(distance,acc_event和dec_event)缩放到90分钟。一旦我将这些变量缩放到90分钟,我就能够为这些新缩放的变量预测90分钟的输出变量(能量)。
由于我在这里有2个分类变量,'玩家ID'和'位置',我不认为使用min-max规范化方法会给我一个有效的结果。
x_normalised = [ { x - min(x) } / { max(x) - min(x) } ] * 90
有没有办法可以将这些time_dependant输入变量缩放到90分钟然后我可以使用缩放值来预测输出/能量?
任何建议/帮助都会非常有帮助。 TIA。