我已经下载了一个包含1000个单词的.txt,每个单词都分配了一个标签,表示正值或负值。值小于,它代表的-ve情绪越多。 它看起来像: -
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
我已将第一列命名为word
,将第二列命名为column
作为标签。
我正在训练它: -
vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)
现在,问题是因为每个单词只出现一次,所以预测未经训练的部分中单词的标签是没有意义的,因为未经训练的部分中的单词与单词中的单词没有关系。所以,正如预期的那样,我得到了很长的low accuracy
。那么,你应该如何使用预定义词汇来进行情感分析呢?