对于有点含糊不清的标题感到抱歉,但我不确定如何在一行中描述问题。我遇到的问题如下:
在监督学习设置中,我有一些具有相关功能的实例。但是,在某些情况下,我有几个观察结果。
作为一个具体的例子,我可能希望根据以前的表现来预测公司未来的员工绩效(例如,一系列测量,如生产力等)。因此,我的员工只有一年的数据(比如说2003年),而另一名员工只有3年(2001,2002,2003)。每年测量的功能是相同的,让我们假设所有员工都在同一家公司工作,这样比较就更容易了。
现在,问题变成:如何以每个员工一个观察行结束。我有一些想法:
1)只需使用可用于每位员工的最后一年的数据并丢弃之前的数据,这样我每个员工只有一行。我还会使用一个数字变量来表示员工在公司工作的年数作为附加功能。这个想法是,最近一年将是最丰富的信息。但是,在我看来,我可能会扔掉可能有用的信息。
2)在所有年份中采用均值(或内核均值嵌入,任何类型的摘要......)。然而,这对我来说是错误的,因为在公司工作不同时间的人会受到不公平的比较。不可否认,他们在第一年的工作效率会降低,而且会逐渐提高。这意味着在第一年提高生产率比在第三年或第五年提高效率更好。
3)我会使用某种措施来计算从第1年到最近一年的每个要素的改进率,并且还将作为额外要素的工作年数加起来(如第1点所述)。但是,我必须为那些仅在一年工作的人提出一些假值。我在想一个非常不切实际的价值观。我认为这可能在一个类似算法的树中工作,它不会将一个特征与一个参数相乘,但是当使用神经网络或线性回归来命名时会产生严重错误的结果。您对各种学习算法的影响有何看法?
4)您的建议?
非常感谢任何想法,感谢阅读!