应用错误收集

我有两个csv文件，我正在使用以下语法将它们分成训练集，测试集和验证集。

X_train, y_train,X_val, y_val = iterative_train_test_split(X_data, y_data,test_size=0.2)

X_train, y_train,X_test, y_test = iterative_train_test_split(X_train, y_train,test_size=0.25)

第一个csv文件的格式如下：

Tokenized Training sentences

第二个csv文件的格式如下：

label for tokenized data

如您所见，第一个文件包含标记化的句子，第二个文件包含与之关联的标签。

现在，我想为X_train，y_Train，X_val，y_val，X_test，y_test和数据创建单独的csv文件。

那么，如何将原始数据（即文本和标签）分成3个单独的文件（训练，测试和验证）？并请注意，我希望这些csv文件上的文本不是numpy数组，因为iterative_train_test_split会将数据转换为numpy n维数组

如何将文件分成训练和测试数据集，然后为其创建不同的csv文件？

0 个答案: