我有一个DataFrame,其中包含一个数字连续列:“ loan_amount”和一个类别列“ loan_status”,其中包含值:current
,paid
,default
。我想分析loan_amount对loan_status的影响。
我的第一个直觉是创建一个列,该列保存loan_amount的时间间隔,即对其进行分类,然后查看其对loan_status的影响。
我首先对四个四分位数进行分类,然后使用数据透视表分析类别对借贷状态的影响。
loan_df['loan_amnt_cat'] = pd.cut(loan_df['loan_amnt'], bins=[0, 500, 5500, 15000, 35000], labels=['upto 500', '501To5500', '5501To15000', 'more than 15001'])
loan_df.pivot_table(values='id', index='loan_status', aggfunc='count', columns='loan_amnt_cat')
上述方法的问题在于,类别仍然非常广泛,请为我提供一种分析此问题的正确方法。我也想通过情节来分析这一点,但无法提出一个想法。我开始学习数据分析,并且对该领域的知识很少。