如何确定分类输入变量之间或分类中输入和输出变量之间的关系或相关性?

时间:2017-12-01 10:53:45

标签: python-3.x machine-learning

我开始自己学习机器学习。

我有一组输入变量(分类和连续):工作(退休,经理,技师等)教育(高中,未知,学士,硕士等),接触时间,年龄,婚姻;等....输出变量(是或否)(同意购买新产品?)

首先,我想分析数据集,但我不知道如何在python中找到离散输入数据的输入和输出变量之间的相关性?

我应该清除所有丢失的数据吗(未知)?

1 个答案:

答案 0 :(得分:0)

有两件事情浮现在脑海中: 1.看看相关的特征如何 2.看看购买与未购买的统计分布是什么样的

功能相关性

import pandas as pd
import seaborn as sns

df = pd.DataFrame({
        'job': ['retired', 'retired', 'manager', 'manager', 'manager', 'technician', 'technician', None, None],
        'education': ['high', 'high', 'master', 'unknown', 'master', 'master', 'high', 'unknown', 'master'],
        'duration_of_contact': [3, 1, 5, 3, 1, 9 ,8, 3, 1],
        'age': [50, 65, 30, 29, 38, 42, 25, 10, 10],
        'married': [1, 1, 0, 1, 0, 1, 0, 0, 0],
        'purchase': [0, 0, 1, 1, 1, 0, 0, 1, 1]
    })

sns.heatmap(df.corr())

enter image description here

统计属性

当购买为True且购买时为False时,您可以查看两种情况的分布:

sns.boxplot(x="purchase", y="age", data=df)

enter image description here

查看更多可以从seaborn使用的图:https://seaborn.pydata.org/tutorial/categorical.html