在用于情感分析的单词词典上训练数据集时获得非常低的准确度

时间:2018-04-21 13:37:59

标签: python machine-learning scikit-learn sentiment-analysis

我已经下载了一个包含1000个单词的.txt,每个单词都分配了一个标签,表示正值或负值。值小于,它代表的-ve情绪越多。 它看起来像: -

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

我已将第一列命名为word,将第二列命名为column作为标签。 我正在训练它: -

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

现在,问题是因为每个单词只出现一次,所以预测未经训练的部分中单词的标签是没有意义的,因为未经训练的部分中的单词与单词中的单词没有关系。所以,正如预期的那样,我得到了很长的low accuracy。那么,你应该如何使用预定义词汇来进行情感分析呢?

0 个答案:

没有答案