应用错误收集

处理（填充）结构化缺失数据的最佳方法是什么？我有不同类型的类别，这些类别基于不同组测试的结果将被分类为“通过”或“拒绝”。数据集的玩具示例如下：

import numpy as np
import pandas as pd

data = [['car' ,np.nan, np.nan, 1, 2, 'passed'], ['bus' ,1, 2, 1, 2, 'passed'], 
        ['car' ,np.nan, np.nan, 1, 5, 'reject'], ['bus' ,3, 3, 1, 5, 'reject']] 
df = pd.DataFrame(data, columns = ['type', 'test1', 'test2', 'test3', 'test4', 'result']) 
df

实际数据为2：1，与“通过”不平衡。但是，DNN分类器倾向于将所有内容分类为“通过”。我想问题是填充NaN数据的方式（-1或-999）。任何建议都会很棒。

处理结构化缺失数据的最佳方法是什么？

0 个答案: