应用错误收集

我已经下载了一个包含1000个单词的.txt，每个单词都分配了一个标签，表示正值或负值。值小于，它代表的-ve情绪越多。它看起来像： -

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

我已将第一列命名为word，将第二列命名为column作为标签。我正在训练它： -

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

现在，问题是因为每个单词只出现一次，所以预测未经训练的部分中单词的标签是没有意义的，因为未经训练的部分中的单词与单词中的单词没有关系。所以，正如预期的那样，我得到了很长的low accuracy。那么，你应该如何使用预定义词汇来进行情感分析呢？

在用于情感分析的单词词典上训练数据集时获得非常低的准确度

0 个答案: