使用RFC解决Titanic(Kaggle)数据集,未知标签类型:“未知”

时间:2019-03-17 21:29:49

标签: python pandas kaggle

我正在使用RFC解决泰坦尼克号Kaggle数据集,并且在将数据拟合到模型时遇到错误,提示“未知标签类型:'未知”。我觉得错误出在y,但找不到任何东西。

data = pd.read_csv('train.csv')
data = data.fillna(data.mean())
data = data.replace('male',1)
data = data.replace('female',0)
data = data.replace('S',0)
data = data.replace('C',1)
data = data.replace('Q',2)
data['Embarked'] = data['Embarked'].fillna('S')
data = data[data.Embarked != 'S']
y = data.Survived
np.unique(y)
features = ['Pclass','Sex','Age','Fare','SibSp','Parch','Embarked']
X = data[features]
trainX,trainY,valX,valY = train_test_split(X,y,random_state = 1)  
titanmodel = RandomForestClassifier(random_state = 1)
titanmodel.fit(trainX,trainY)  

模型拟合部分出现错误
    ValueError:未知标签类型:'未知'
另外,如果您有更好的解决方法,请告诉您。 预先感谢

1 个答案:

答案 0 :(得分:0)

train_test_split()的结果是X_train,X_test,y_train,y_test,并且您在代码中以不同顺序分配值。

更改行:

trainX,trainY,valX,valY = train_test_split(X,y,random_state = 1)  

通过这个:

trainX,valX,trainY,valY = train_test_split(X,y,random_state = 1)  

您将能够使用正确的参数来拟合模型。

相关问题