处理结构化缺失数据的最佳方法是什么?

时间:2019-05-29 04:49:33

标签: python-3.x

处理(填充)结构化缺失数据的最佳方法是什么?我有不同类型的类别,这些类别基于不同组测试的结果将被分类为“通过”或“拒绝”。数据集的玩具示例如下:

import numpy as np
import pandas as pd

data = [['car' ,np.nan, np.nan, 1, 2, 'passed'], ['bus' ,1, 2, 1, 2, 'passed'], 
        ['car' ,np.nan, np.nan, 1, 5, 'reject'], ['bus' ,3, 3, 1, 5, 'reject']] 
df = pd.DataFrame(data, columns = ['type', 'test1', 'test2', 'test3', 'test4', 'result']) 
df

实际数据为2:1,与“通过”不平衡。但是,DNN分类器倾向于将所有内容分类为“通过”。我想问题是填充NaN数据的方式(-1或-999)。任何建议都会很棒。

0 个答案:

没有答案