如何使用train_test_split将未标记的数据分为训练集和测试集?

时间:2020-09-29 19:36:56

标签: python train-test-split

我是数据科学的新手,实际上尝试构建我的第一个模型。 我对使用split函数的正确方法感到困惑。大多数文档建议采用以下方法(其中X = data和Y =标签):

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

我有一个不带标签(X = data)的数据集,并希望基于该数据集建立模型以预测异常。这意味着,我实际上只能将数据集分成2个(部分:X_train和X_test)。但是我不确定这对我的数据集是否正确,并且想知道如何继续获取y。谢谢您的支持

1 个答案:

答案 0 :(得分:0)

您可以在link中看到示例。该功能也可以作用于一个变量

train_test_split(y,shuffle = False)

对于您而言,答案将是

inversedBy