处理(填充)结构化缺失数据的最佳方法是什么?我有不同类型的类别,这些类别基于不同组测试的结果将被分类为“通过”或“拒绝”。数据集的玩具示例如下:
import numpy as np
import pandas as pd
data = [['car' ,np.nan, np.nan, 1, 2, 'passed'], ['bus' ,1, 2, 1, 2, 'passed'],
['car' ,np.nan, np.nan, 1, 5, 'reject'], ['bus' ,3, 3, 1, 5, 'reject']]
df = pd.DataFrame(data, columns = ['type', 'test1', 'test2', 'test3', 'test4', 'result'])
df
实际数据为2:1,与“通过”不平衡。但是,DNN分类器倾向于将所有内容分类为“通过”。我想问题是填充NaN数据的方式(-1或-999)。任何建议都会很棒。