Question

我是数据科学的新手，实际上尝试构建我的第一个模型。我对使用split函数的正确方法感到困惑。大多数文档建议采用以下方法（其中X = data和Y =标签）：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

我有一个不带标签（X = data）的数据集，并希望基于该数据集建立模型以预测异常。这意味着，我实际上只能将数据集分成2个（部分：X_train和X_test）。但是我不确定这对我的数据集是否正确，并且想知道如何继续获取y。谢谢您的支持

Answer 1

您可以在link中看到示例。该功能也可以作用于一个变量

train_test_split（y，shuffle = False）

对于您而言，答案将是

inversedBy