我目前正在为一个班级项目处理IMDB 5000电影数据集。该预算变量有很多零值。
他们缺少条目。我不能删除它们,因为它们占了我全部数据的22%。
我应该在Python中做什么?一些建议的装箱?您能提供更多详细信息吗?
答案 0 :(得分:0)
有几种选择。
我认为,根据您进行的分析,找到电影的实际预算,并用实际预算替换不良的逐项预算是一个不错的选择。您可以将预算的每个功能列的中位数或平均值作为电影的每个预算的百分比,然后用中位数占用的预算百分比填充零。如果非零actor_pay列的中位数值为budget / actor_pay = 60%,则可以选择将该电影的预算的60%填充为零值的actor_pay列。
硬选项创建一个函数,该函数采用电影预算的非零值,并尝试根据表中的其他电影数据对电影预算进行插值。此选项更像是它自己的项目,实际上应该首先尝试上述选项。