应用错误收集

处理分类模型中的新功能

时间：2017-08-07 17:07:15

标签： machine-learning sentiment-analysis text-classification

我正在迈出ML的第一步，特别是用于文本情感分析的分类器。我的方法是制作通常的80％训练数据集和20％的测试。拥有训练有素的模型当出现新要素时，在生产环境中进行的最佳方式是什么（初始数据集中不存在的文本中的新单词）？

2 个答案:

答案 0 :(得分：0)

在分类任务中，必须在列车时间看到所有特征，并且以后不能将新特征添加到预测阶段。对于您的问题，您可以使用，Stemming或Lemmatizing。或者像LDA或Word2Vec这样的东西，他们训练了大量的文件

本章可能有用：https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

答案 1 :(得分：0)

您所描述的问题通常被称为＆＃34;词汇量＆＃34; （OOV）出现在测试集中但不出现在训练集中的单词。传统方法是用特殊标记表示每个OOV字，例如＆＃34; UNKNOWN＆＃34;，并且实际上具有训练数据中的那些。这种方法在Section 4.3＆＃34;语音和语言处理＆＃34;中进行了更全面的讨论。由Jurafsky和Martin。

更现代的方法是使用Word2Vec。这是在神经网络中发现的真正advanced topic。