如何处理机器学习中的偏见功能(日期)

时间:2019-05-28 07:54:08

标签: machine-learning feature-selection

我有一个预测马匹寿命的模型。该数据集包含1980年至2019年的样本,其中有一个名为出生日期的特征,其中标有每匹马的寿命。问题是,知道一匹马通常会生活20到30年,如果我们从1980年到1990年看,我们拥有完整的马匹及其寿命清单,但是从2000年到2019年,我们只能看到马匹出生和死亡的样本在这段时间跨度内,而不是目前的时间跨度,因此出生日期是有偏见的功能。

有没有一种方法可以使用出生日期功能而不必担心数据有偏差,也不需要某种技术来最小化他对最终预测的影响?

0 个答案:

没有答案