准备训练数据集

时间:2019-05-13 18:56:59

标签: python pandas machine-learning scikit-learn training-data

准备训练数据集时,我是否需要从训练数据集中删除目标变量数据,还是可以保留?因此,下面的代码中的X = df[:,:]应该排除目标变量还是它匹配?

# Feature to be predicted (y)
y = df['predicted'] #target variable

#Training data
X = df[:,:]

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

2 个答案:

答案 0 :(得分:1)

是否离开目标取决于您正在使用的机器学习库。创建训练数据集时,某些库为您提供了一个选项,用于指定要用于训练的列。如果使用这些库,则不必从训练数据中删除任何内容。

Sklearn没有此选项,因此您必须删除目标功能。

# Feature to be predicted (y)
y = df['predicted'] #target variable

#Training data
X = df.drop("predicted",1)
# here 1 is the axis which means drop a column

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

答案 1 :(得分:0)

您不能将标签留在功能集中,否则将泄漏现成的答案。

X = df.drop(columns = 'predicted')