我有两个csv文件,我正在使用以下语法将它们分成训练集,测试集和验证集。
X_train, y_train,X_val, y_val = iterative_train_test_split(X_data, y_data,test_size=0.2)
X_train, y_train,X_test, y_test = iterative_train_test_split(X_train, y_train,test_size=0.25)
第一个csv文件的格式如下:
第二个csv文件的格式如下:
如您所见,第一个文件包含标记化的句子,第二个文件包含与之关联的标签。
现在,我想为X_train,y_Train,X_val,y_val,X_test,y_test和数据创建单独的csv文件。
那么,如何将原始数据(即文本和标签)分成3个单独的文件(训练,测试和验证)?并请注意,我希望这些csv文件上的文本不是numpy数组,因为iterative_train_test_split会将数据转换为numpy n维数组