如何使用scikit交叉验证模块将数据(原始文本)拆分为测试/训练集?

时间:2014-09-11 17:44:06

标签: machine-learning scikit-learn classification cross-validation text-classification

我在原始文本中有大量的意见(2500)。我想使用scikit-learn库将它们分成测试/训练集。用scikit-learn解决这个任务可能是最好的方法吗?有人能给我一个在测试/训练集中拆分原始文本的例子(可能我会使用tf-idf表示)。

1 个答案:

答案 0 :(得分:19)

假设您的数据是字符串列表,即

data = ["....", "...", ]

然后,您可以使用train_test_split将其分为训练(80%)和测试(20%)组,例如通过做:

from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)

在你急于做之前,请阅读those docs。 2500不是"大型语料库"你可能想要做一些像k-fold交叉验证而不是单一的保持分裂。