识别和替换python中薪水列的异常值的最佳方法

时间:2019-02-27 11:56:48

标签: sklearn-pandas data-science-experience

识别和替换ApplicantIncome异常值的最佳方法是什么, 熊猫python中的CoapplicantIncome,LoanAmount,Loan_Amount_Term列。

我尝试用海运箱线图进行IQR,并尝试确定出口并用申请人收入和NAN记录填充NAN记录。

尝试使用以下组合列中的一组,例如:性别,教育程度,个体经营者,财产地区

并且在我的数据框中有下面的列

Loan_ID              LP001357
Gender                   Male
Married                   NaN
Dependents                NaN
Education            Graduate
Self_Employed              No
ApplicantIncome          3816
CoapplicantIncome         754
LoanAmount                160
Loan_Amount_Term          360
Credit_History              1
Property_Area           Urban
Loan_Status                 Y

1 个答案:

答案 0 :(得分:1)

离群值

就像丢失值一样,您的数据也可能包含与大多数其他数据有很大差异的值。这些数据点称为“异常值”。要找到它们,您可以通过箱形图检查单个变量的分布,也可以对数据进行散点图以识别不在图的“预期”区域内的数据点。

数据异常值的原因可能会有所不同,从系统错误到通过数据输入或数据处理来干扰数据的人,但重要的是要考虑它们可能对您的分析产生的影响:它们将改变结果统计检验,例如标准差,均值或中位数,可能会降低正态性并影响统计模型的结果,例如回归或ANOVA。

要处理异常值,可以删除,变换或插入它们:决定将再次取决于数据上下文。这就是为什么再次了解您的数据并找出异常原因的原因:

  • 如果异常值是由于数据输入或数据处理错误引起的, 您可以考虑删除该值。
  • 您可以通过为您的权重分配异常值 观察或使用自然对数来减少 数据集中的异常值导致。
  • 就像缺少值一样,您也可以使用插补方法 用中位数,均值或众数替换数据的极值 值。

您可以使用上一节中描述的功能来处理数据中的异常值。

以下链接将对您有用:

Python data cleaning

Ways to detect and remove the outliers