我在原始文本中有大量的意见(2500)。我想使用scikit-learn库将它们分成测试/训练集。用scikit-learn解决这个任务可能是最好的方法吗?有人能给我一个在测试/训练集中拆分原始文本的例子(可能我会使用tf-idf表示)。
答案 0 :(得分:19)
假设您的数据是字符串列表,即
data = ["....", "...", ]
然后,您可以使用train_test_split将其分为训练(80%)和测试(20%)组,例如通过做:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)
在你急于做之前,请阅读those docs。 2500不是"大型语料库"你可能想要做一些像k-fold交叉验证而不是单一的保持分裂。