识别和替换ApplicantIncome异常值的最佳方法是什么, 熊猫python中的CoapplicantIncome,LoanAmount,Loan_Amount_Term列。
我尝试用海运箱线图进行IQR,并尝试确定出口并用申请人收入和NAN记录填充NAN记录。
尝试使用以下组合列中的一组,例如:性别,教育程度,个体经营者,财产地区
并且在我的数据框中有下面的列
Loan_ID LP001357
Gender Male
Married NaN
Dependents NaN
Education Graduate
Self_Employed No
ApplicantIncome 3816
CoapplicantIncome 754
LoanAmount 160
Loan_Amount_Term 360
Credit_History 1
Property_Area Urban
Loan_Status Y
答案 0 :(得分:1)
就像丢失值一样,您的数据也可能包含与大多数其他数据有很大差异的值。这些数据点称为“异常值”。要找到它们,您可以通过箱形图检查单个变量的分布,也可以对数据进行散点图以识别不在图的“预期”区域内的数据点。>
数据异常值的原因可能会有所不同,从系统错误到通过数据输入或数据处理来干扰数据的人,但重要的是要考虑它们可能对您的分析产生的影响:它们将改变结果统计检验,例如标准差,均值或中位数,可能会降低正态性并影响统计模型的结果,例如回归或ANOVA。
要处理异常值,可以删除,变换或插入它们:决定将再次取决于数据上下文。这就是为什么再次了解您的数据并找出异常原因的原因:
您可以使用上一节中描述的功能来处理数据中的异常值。
以下链接将对您有用: