Question

我有一个DataFrame，其中包含一个数字连续列：“ loan_amount”和一个类别列“ loan_status”，其中包含值：current，paid，default。我想分析loan_amount对loan_status的影响。

我的第一个直觉是创建一个列，该列保存loan_amount的时间间隔，即对其进行分类，然后查看其对loan_status的影响。

我首先对四个四分位数进行分类，然后使用数据透视表分析类别对借贷状态的影响。

loan_df['loan_amnt_cat'] = pd.cut(loan_df['loan_amnt'], bins=[0, 500, 5500, 15000, 35000], labels=['upto 500', '501To5500', '5501To15000', 'more than 15001'])

loan_df.pivot_table(values='id', index='loan_status', aggfunc='count', columns='loan_amnt_cat')

上述方法的问题在于，类别仍然非常广泛，请为我提供一种分析此问题的正确方法。我也想通过情节来分析这一点，但无法提出一个想法。我开始学习数据分析，并且对该领域的知识很少。

如何基于熊猫中的数字数据分析分类数据？

0 个答案: