我开始自己学习机器学习。
我有一组输入变量(分类和连续):工作(退休,经理,技师等)教育(高中,未知,学士,硕士等),接触时间,年龄,婚姻;等....输出变量(是或否)(同意购买新产品?)
首先,我想分析数据集,但我不知道如何在python中找到离散输入数据的输入和输出变量之间的相关性?
我应该清除所有丢失的数据吗(未知)?
答案 0 :(得分:0)
有两件事情浮现在脑海中: 1.看看相关的特征如何 2.看看购买与未购买的统计分布是什么样的
功能相关性
import pandas as pd
import seaborn as sns
df = pd.DataFrame({
'job': ['retired', 'retired', 'manager', 'manager', 'manager', 'technician', 'technician', None, None],
'education': ['high', 'high', 'master', 'unknown', 'master', 'master', 'high', 'unknown', 'master'],
'duration_of_contact': [3, 1, 5, 3, 1, 9 ,8, 3, 1],
'age': [50, 65, 30, 29, 38, 42, 25, 10, 10],
'married': [1, 1, 0, 1, 0, 1, 0, 0, 0],
'purchase': [0, 0, 1, 1, 1, 0, 0, 1, 1]
})
sns.heatmap(df.corr())
统计属性
当购买为True且购买时为False时,您可以查看两种情况的分布:
sns.boxplot(x="purchase", y="age", data=df)
查看更多可以从seaborn使用的图:https://seaborn.pydata.org/tutorial/categorical.html