我正在使用TF-idf从文本中提取一些功能,然后以此训练机器。预测之后,我需要将预测值合并到原始数据帧中。
我这样使用train_test_split:
X = tfidf_vectorizer_vectors
y = labels
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)
和我的数据集是这样的:
Text Label
'hello, its a text ....' 1
'how are you ....' 0
在计算完TF-idf和train_test_split之后,我实际上不知道哪个预测是针对哪个列的。