如何基于熊猫中的数字数据分析分类数据?

时间:2019-06-22 11:10:15

标签: python pandas dataframe plot

我有一个DataFrame,其中包含一个数字连续列:“ loan_amount”和一个类别列“ loan_status”,其中包含值:currentpaiddefault。我想分析loan_amount对loan_status的影响。

我的第一个直觉是创建一个列,该列保存loan_amount的时间间隔,即对其进行分类,然后查看其对loan_status的影响。

我首先对四个四分位数进行分类,然后使用数据透视表分析类别对借贷状态的影响。

loan_df['loan_amnt_cat'] = pd.cut(loan_df['loan_amnt'], bins=[0, 500, 5500, 15000, 35000], labels=['upto 500', '501To5500', '5501To15000', 'more than 15001'])

loan_df.pivot_table(values='id', index='loan_status', aggfunc='count', columns='loan_amnt_cat')

上述方法的问题在于,类别仍然非常广泛,请为我提供一种分析此问题的正确方法。我也想通过情节来分析这一点,但无法提出一个想法。我开始学习数据分析,并且对该领域的知识很少。

0 个答案:

没有答案