我们可以将特征缩放应用于数据集中的“独立变量”吗?

时间:2018-09-21 16:28:37

标签: python-3.x machine-learning data-science

我有一个包含8个因变量(2个分类数据)的数据集。我已应用ExtraTreeClassifier()来消除一些因变量。 我还对X,y进行了比例缩放。

 from sklearn.preprocessing import StandardScaler
 sc = StandardScaler()
 X = sc.fit_transform(X)
 X = sc.transform(X)
 y = sc.fit_transform(y)
 y = sc.transform(y)

然后,我像

一样分割了数据集
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_new, encoded2, 
test_size = 0.25, random_state = 0)

现在我正在应用DecisionTreeRegressor算法进行预测。 但是我想要实际的预测(现在我正在获得定标值)。 怎么做? 还有其他方法可以做到吗? 因为我做的方法是给RMSE = 0.02,如果我没有缩放比例因变量,则RMSE = 18.4。 请提出如何解决此类问题的建议。

1 个答案:

答案 0 :(得分:1)

首先,不需要缩放目标变量(y),但是如果进行缩放,StandardScaler和其他各种预处理技术都具有inverse_transform功能通过它可以获取原始值。

摘自StandardScaler的文档:

  

inverse_transform(X[, copy])将数据按比例缩小为原始表示形式