我目前正在通过this tutorial工作。我目前想展示的是“生存”如何受到性别的影响(数据集中的性别)。因为那是分类数据,所以我必须首先转换该数据。我使用一种热门编码进行了尝试,但这似乎不是正确的方法。有人可以帮助我吗?
titanic_data = pd.read_csv('../input/titanic/train.csv')
titanic_y = titanic_data.Survived
clf = GradientBoostingClassifier()
titanic_sex = titanic_data.Sex
one_hot_encoded_training_predictors = pd.get_dummies(titanic_sex)
titanic_X_colns = ['PassengerId','Age', 'Fare', one_hot_encoded_training_predictors]
titanic_X = titanic_data[titanic_X_colns]
my_imputer = Imputer()
imputed_titanic_X = my_imputer.fit_transform(titanic_X)
clf.fit(imputed_titanic_X, titanic_y)
titanic_plots = plot_partial_dependence(clf, features=[1,2,3], X=imputed_titanic_X,
feature_names=titanic_X_colns, grid_resolution=8)