所以我正在研究一个监督的二进制预测问题。数据框主要是我一口气编码的类别。我处理了所有缺失值,NaN和无限值。 数据帧(df)具有2个数字特征,其余分类(一次热编码)。提醒因变量是二进制。
dataset_target = df[['dependent_var']].values
dataset_target = pd.DataFrame(dataset_target)
dataset_target.columns=['dependent_var']
regressor = RandomForestRegressor(n_estimators=500, random_state=0, n_jobs=-1)
# Train the classifier
regressor.fit(df, dataset_target.values)
# Print the name and gini importance of each feature
for feature in regressor.feature_importances_:
print(feature)
该模型应该可以帮助我选择最重要的功能,但是该模型正在运行,但是结果令人非常不满意(只有0和1 1),我什至都不知道,因此也不知道输入中要更改的内容
这是我作为DA实习期间的第一个预测项目,很高兴获得任何帮助。
这是randomForrest输出的摘要: