我是数据科学的新手,实际上尝试构建我的第一个模型。 我对使用split函数的正确方法感到困惑。大多数文档建议采用以下方法(其中X = data和Y =标签):
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
我有一个不带标签(X = data)的数据集,并希望基于该数据集建立模型以预测异常。这意味着,我实际上只能将数据集分成2个(部分:X_train和X_test)。但是我不确定这对我的数据集是否正确,并且想知道如何继续获取y。谢谢您的支持
答案 0 :(得分:0)