在此Feature Generation tutorial中,作者使用Kickstart数据来预测筹款结果,作者尝试生成一个新功能(我们称其为“ last_launched”),该功能将时间与同一类别的上一个项目分开。单位是“小时”。例如,给定类别Rock Band,如果项目A在2019-12-08 06:00:00启动,而项目B在2019-12-08 11:00:00启动,则项目B的last_launched值会是5。
当项目A是“摇滚乐队”类别中的有史以来第一个项目时,就会出现NAN问题。在这种情况下,我们如何估算NAN?作者使用fillna(中位数)。但是,实际上,fillna(0)反映了一个事实,即项目A之前没有其他项目。在这种特殊情况下,是否存在一个统计依据(我尚未发现),以中位数超过0来估算缺失值?有人可以提供一些指导吗?谢谢。