大量零值作为缺失值的数据集。我该怎么办?

时间:2019-02-20 22:36:05

标签: python data-science mining

我目前正在为一个班级项目处理IMDB 5000电影数据集。该预算变量有很多零值。

他们缺少条目。我不能删除它们,因为它们占了我全部数据的22%。

我应该在Python中做什么?一些建议的装箱?您能提供更多详细信息吗?

1 个答案:

答案 0 :(得分:0)

有几种选择。

  • 取非零值的平均值,然后用平均值填充所有零。这会产生“发粘”的结果,并且不是最佳实践,一些异常值可能会使整体偏离。
  • 使用非零值的中位数,也不是超级选项,但不太可能被异常值抛弃。
  • 装箱将取预算的总和,然后说将电影分成一定数量的组,例如预算超过或少于一百万,取平均预算,然后将其除以所需的组数量,然后使用间隔如果它们属于第0组,则从平均值创建,如果第1组为1,则给它们零。
  • 我认为,根据您进行的分析,找到电影的实际预算,并用实际预算替换不良的逐项预算是一个不错的选择。您可以将预算的每个功能列的中位数或平均值作为电影的每个预算的百分比,然后用中位数占用的预算百分比填充零。如果非零actor_pay列的中位数值为budget / actor_pay = 60%,则可以选择将该电影的预算的60%填充为零值的actor_pay列。

  • 硬选项创建一个函数,该函数采用电影预算的非零值,并尝试根据表中的其他电影数据对电影预算进行插值。此选项更像是它自己的项目,实际上应该首先尝试上述选项。