这些天,我试图自学机器学习,但我的数据集遇到了一些问题。
我的某些行(我使用一些js脚本创建的csv文件,我更有信心在js中这样做)在我试图建立一些猜测模型时是正常的,但是问题是会导致我的训练集中有nan
个值。
我的NN并未进行训练,因此我添加了一段代码以将其从我的集合中删除,但是现在我遇到了一些问题,我的模型无法使用来自不同大小的输入。.
所以我的问题是:如何处理丢失的数据? (我基本上有2行,并且只能具有1的值,并且不能合并它们,因为它不会给出良好的结果)
我可以将其从我的集合中删除,但最终会降低模型的准确性。
PS:如果需要,我回到家时会张贴一些代码。
答案 0 :(得分:3)
在训练和推理期间,您需要具有相同的输入大小。如果您缺少缺失值很少(几个百分比),则始终可以选择用0或列平均值替换缺失值 < / strong>。如果(大于50%)缺少更多值,则最好完全忽略该列。请注意,从理论上讲,使其发挥作用的最佳方法是对数据尝试不同的策略。