使用SMOTE

时间:2019-11-12 16:28:15

标签: scikit-learn oversampling smote

我有一条推文的不平衡数据集,标为-1、0,+ 1。 我想通过上采样来平衡数字。我收到以下错误:

tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)
  

不能将字符串转换为浮动:“ازاینبهبعدهمینهسلبریتیهاییکهایدیولوژیهای#جمهوری_اسلامیروتبلیغمیکننخارجازمرزایرانهمحقندارنآسایشداشتهباشنومجبوربود#باشهمچناناداوفاداریبهاونایدیولوژیرودربیارن #ونهرجایهدوربینمنتظرهکه#ریاکاریشونروثبتکنه'

为什么它应该尝试将字符串转换为浮点型?

PS。重塑之前,tweet_train和y_train是具有shape =(n,)

的numpy数组

1 个答案:

答案 0 :(得分:1)

您首先需要对数据进行矢量化处理:例如,您可以使用尺寸与词汇表中的单词数相同大小的矢量来表示一条推文。这些值是文档中单词(=列)出现的次数。