如果缺失具有明确含义,该如何处理缺失值?

时间:2019-02-20 16:46:35

标签: missing-data

我正在尝试根据提供相同产品的竞争者的价格(除其他变量外)对零售商产品的每日需求进行建模。我在同一日期有20列,列出了该特定产品的各种竞争对手的价格。然而,零售商在观察期内的产品范围内有80 000多种产品,当然,并非所有竞争对手也都提供所有这些产品。实际上,在大多数情况下,只有2个或3个竞争对手提供相同的产品。这导致很多缺失值,表明该竞争对手当时不提供该产品。

鉴于大量遗漏值以及它们本身包含有价值的信息这一事实,我不想简单地估算这些遗漏值:竞争对手是否提供此产品。

是否有一种可监督的学习算法来处理特定情况下的缺失值?

1 个答案:

答案 0 :(得分:0)

我也同意,在这种情况下,插补并不是一个好主意,因为丢失了丢失的信息。但是,考虑到创建附加功能以指示某个值是已知值还是缺失值的想法,您可以尝试通过均值填充缺失值,然后对数据使用LogisticRegression。